최근 AI 에이전트 생태계에서 가장 뜨거운 논쟁은 시각적 인터페이스를 통한 제어 방식과 구조화된 데이터 호출 간의 비용 효율성 차이에서 시작되었다. 단순히 화면을 캡처하고 마우스를 움직여 작업을 수행하는 비전 기반 에이전트가 직관적이라는 점만으로는 설명되지 않는 경제적 부담이 드러나면서, 업계의 시선이 다시 한번 기술 아키텍처의 근본으로 향하고 있다. 실제 벤치마크 데이터에 따르면 동일한 관리자 패널 작업을 수행할 때, 화면을 보고 클릭하는 방식은 약 53 단계에 55 만 토큰을 소모하는 반면, 자동 생성된 API 엔드포인트를 호출하는 방식은 8 번의 호출에 1 만 2 천 토큰으로 끝났다. 이 수치 차이는 단순한 효율성 문제를 넘어, 에이전트가 실제 비즈니스 환경에서 얼마나 많은 자원을 소모하며 작동하는지를 적나라하게 보여준다.
왜 기업들은 여전히 비용이 훨씬 더 많이 드는 비전 에이전트 방식을 선호할까. 그 배경에는 내부 애플리케이션 20 개 이상을 가진 대부분의 팀이 각 애플리케이션마다 별도의 API 표면, 즉 MCP 나 REST 인터페이스를 구축하는 것이 별도의 엔지니어링 프로젝트만큼이나 막대한 초기 투자 비용이 든다는 현실이 자리 잡고 있다. 비전 에이전트는 이러한 인프라 구축이 없는 레거시 시스템이나 외부 웹 애플리케이션을 즉시 제어할 수 있는 유일한 대안으로 작용한다. 마치 마우스가 움직일 때마다 화면 요소를 재배치하거나 버튼 라벨을 랜덤하게 변경하는 등 에이전트의 탐색을 어렵게 만드는 기업용 SaaS 앱들이 오히려 비전 에이전트의 비효율성을 부추기는 아이러니한 상황을 연출하기도 한다.
이러한 비용 격차는 곧 운영체제 자체의 재설계 필요성을 시사한다. 에이전트 시대에 OS 는 인간이 사용하는 방식과 기계가 사용하는 방식을 동시에 만족시키며, 모든 앱 기능을 인간 친화적인 UI 로 유지하면서도 API 로 완전히 노출될 수 있어야 한다. 일부 전문가들은 오픈AI 가 자체 스마트폰을 개발하는 행보가 바로 이러한 맥락에서 나온 것으로 해석하며, 이는 애플과 안드로이드에 대한 강력한 경쟁 구도를 만들 수 있을 것이라고 전망한다. 특히 접근성 기능을 통해 DOM 구조를 명확히 하는 것이 에이전트에게 반복 가능한 워크플로우를 생성하는 핵심 열쇠가 된다는 점도 주목할 만하다. 에이전트가 UI 를 탐색하여 구조화된 인터페이스를 매핑하고, 이를 통해 CLI 명령어처럼 반복적인 작업을 수행하는 방식이 점차 표준으로 자리 잡을 가능성이 높다.
앞으로 주목해야 할 점은 비전 에이전트의 비용 부담을 줄이기 위한 기술적 전환이 어떻게 이루어질 것인가이다. 단순히 비싼 방식을 사용하는 것을 넘어, 에이전트가 UI 를 스스로 매핑하여 구조화된 인터페이스로 변환하는 자동화 과정이 어떻게 진화할지가 관건이다. 내부 데이터베이스 상태를 직접 다루는 경우 비전 에이전트를 사용하는 것이 마지막 수단으로 남을 것이지만, 외부 웹 애플리케이션과의 상호작용에서는 이러한 비용 격차를 줄이는 새로운 프로토콜이나 프레임워크가 등장할 전망이다. 결국 AI 에이전트의 상용화가 성공하려면 화면을 보는 비용이 아닌, 구조화된 데이터를 호출하는 비용에 근접하는 효율성을 확보하는 것이 핵심 과제가 될 것이다.