← Posts

What Text Cannot Convey

The communication channel with agents is still too narrow

·3 min read
#ai#agency#communication#ux#tooling

UI를 고칠 때 내가 하고 싶은 건 단순하다. 화면을 보면서 "여기, 이거, 이렇게"라고 말하는 것이다. 사람한테라면 모니터를 가리키면서 "이 버튼 간격 좀 줄여줘"라고 하면 끝이다. 그런데 에이전트한테는 그게 안 된다. "헤더 아래 두 번째 섹션에 있는 버튼의 간격이 너무 넓다"고 텍스트로 써야 한다. 내 머릿속에서는 정확히 어디인지 보이는데, 글로 옮기는 순간 위치 정보가 뭉뚱그려진다. 에이전트는 그 흐릿한 설명을 나름대로 해석하고, 틀리고, 다시 설명하고를 반복한다. 이게 병목이었다.

사람끼리도 말만으로 소통하지 않는다

사람끼리 소통할 때도 말과 글은 전달 수단의 일부일 뿐이다. 같은 자리에서 이야기할 때 우리는 몸짓, 시선, 표정, 말투를 전부 동원한다. "여기"라고 하면서 손가락으로 가리키고, 상대가 고개를 갸웃하면 좀 더 구체적으로 풀어서 말한다. 전달이 안 됐다는 걸 상대의 반응에서 바로 읽을 수 있기 때문에, 소통이 실시간으로 보정된다.

에이전트와의 소통에는 이런 수단이 전부 없다. 텍스트 하나에 위치, 맥락, 의도, 우선순위를 다 담아야 하니까, 정확한 지시를 작성하는 비용이 비정상적으로 높아진다. 직접 고치는 게 더 빠른 경우가 생기는 이유 중 하나다.

이전 글에서 "명시하지 않은 것"이 문제라고 했는데, 한 발 더 들어가면 명시하고 싶어도 명시하기 어려운 것들이 있다. 시각적인 위치가 대표적이다. 파일 경로나 컴포넌트 이름을 모르는 상태에서 "화면에 보이는 저것"을 텍스트로 정확히 지칭하는 건 생각보다 어렵다.

찍으면 되게 만든 도구

최근에 Agentation이라는 도구를 써봤다. 브라우저에서 고치고 싶은 UI 요소에 마우스를 갖다 대고 단축키로 선택하면, 그 요소의 클래스명, 셀렉터, 컴포넌트 계층 구조를 자동으로 잡아준다. 거기에 "패딩 줄여줘" 같은 메모를 붙이면 에이전트가 바로 이해할 수 있는 구조화된 컨텍스트가 된다. 화면에서 보이는 것을 코드상의 위치로 번역하는 작업, 원래 내가 직접 해야 했던 그 작업을 도구가 대신 해주는 것이다.

써보면서 느낀 건, 내가 설명을 잘 못해서가 아니었다는 것이다. 텍스트라는 매체 자체가 시각적 맥락을 담기에 좁았다. 도구가 바뀌니까 소통의 질이 달라졌다.

소통 수단이 넓어져야 할 때

지금 에이전트 도구들의 발전 방향을 보면 대부분 에이전트의 능력을 올리는 데 집중하고 있다. 더 큰 컨텍스트 윈도우, 더 나은 코드 이해, 더 정확한 실행. 물론 중요하지만 에이전트가 아무리 똑똑해져도 내 의도를 전달하는 통로가 텍스트뿐이면 병목은 그대로다.

Agentation처럼 시각적 맥락을 구조화된 데이터로 바꿔주는 도구가 더 많아져야 한다. 에이전트의 능력을 높이는 것만큼, 사람이 의도를 전달하는 수단을 넓히는 것도 같은 무게의 문제다.


에이전트와 잘 일하려면 두 가지가 같이 움직여야 한다. 내 의도를 구조화하는 능력과, 그 의도를 전달할 수 있는 수단의 폭이다. 전자는 사람의 몫이고 후자는 도구의 몫이다. 도구의 몫이 중요해지는 시점이다.

When I'm fixing UI, what I want to do is simple. I want to look at the screen and say "here, this, like this." With a person, I'd just point at the monitor and say "tighten up the spacing on this button" and that's it. But with an agent, that doesn't work. I have to write in text: "the spacing on the button in the second section below the header is too wide." In my head, I can see exactly where it is, but the moment I put it into words, the positional information gets blurred. The agent interprets that hazy description in its own way, gets it wrong, I explain again—and we repeat. This was the bottleneck.

Even people don't communicate with words alone

Even between people, words are only one part of how we communicate. When we're in the same room, we use gestures, eye contact, facial expressions, and tone all at once. We say "here" while pointing with a finger, and when the other person tilts their head in confusion, we elaborate. Because we can read from their reaction that the message didn't land, communication gets corrected in real time.

With agents, none of these means exist. Since you have to pack location, context, intent, and priority into a single text message, the cost of writing precise instructions becomes abnormally high. This is one reason why fixing it yourself is sometimes faster.

In the previous post, I said the problem was "what goes unspecified." Go one step deeper, and there are things you want to specify but can't easily put into words. Visual location is a prime example. Without knowing the file path or component name, accurately referring to "that thing on the screen" in text is harder than you'd think.

A tool that lets you just point

I recently tried a tool called Agentation. In the browser, you hover over the UI element you want to fix, select it with a shortcut key, and it automatically captures the element's class name, selector, and component hierarchy. Attach a note like "reduce the padding" and it becomes structured context the agent can immediately understand. The work of translating what you see on screen into a location in code—the work I used to do myself—the tool does it for me.

What I realized using it was that it wasn't that I was bad at explaining. The medium of text itself was too narrow to carry visual context. When the tool changed, the quality of communication changed.

Time for wider communication channels

Looking at how agent tools are evolving today, most focus on improving the agent's capabilities. Larger context windows, better code comprehension, more accurate execution. These matter, of course—but no matter how smart agents get, if text is the only channel for conveying intent, the bottleneck remains.

We need more tools like Agentation that convert visual context into structured data. Widening the means by which humans convey intent is a problem that carries the same weight as improving the agent's capabilities.


Working well with agents requires two things moving in tandem: the ability to structure your intent, and the breadth of means available to convey it. The former is the human's job, the latter is the tooling's job. We're at the point where the tooling's job matters just as much.