최근 AI 에이전트 기술이 급격히 발전하면서 업계의 관심사가 단순한 정답률에서 실제 업무 수행 능력으로 이동하고 있습니다. 특히 IBM 리서치가 Hugging Face 블로그를 통해 공개한 VAKRA 벤치마크는 기존 평가 방식의 한계를 명확히 지적하며 큰 화제를 모으고 있습니다. 과거의 벤치마크가 고립된 기술만 테스트했다면, VAKRA 는 기업 환경처럼 복잡한 API 와 문서가 얽힌 실제 시나리오에서 에이전트가 어떻게 추론하고 도구를 사용하는지 종합적으로 평가합니다.
이 벤치마크가 주목받는 핵심 이유는 62 개 도메인에 걸친 8,000 개 이상의 로컬 호스팅 API 와 실제 데이터베이스를 기반으로 한다는 점입니다. 에이전트는 자연어 명령에 따라 구조화된 API 호출과 비정형 문서 검색을 오가며 3 단계에서 7 단계에 이르는 복잡한 추론 체인을 완성해야 합니다. 이러한 환경에서 모델들이 예상보다 낮은 성능을 보인다는 사실은 현재 AI 에이전트가 실제 업무에 투입되기 위해 넘어야 할 장벽이 어디인지 구체적으로 보여줍니다.
특히 SLOT-BIRD 와 SEL-BIRD 컬렉션을 확장하여 12 단계까지 이어지는 도구 호출 체인을 테스트하는 방식은 기존 연구와 차별화됩니다. 각 도메인별로 제한된 도구 세트를 사용하면서도 다양한 조합을 요구하는 구조는 에이전트의 유연한 사고력을 검증합니다. 분석 결과, 에이전트들이 특정 단계에서 실패하는 패턴이 명확하게 드러났으며, 이는 단순한 지식 부족이 아니라 도구 사용 전략이나 추론 과정의 결함에서 비롯됨을 시사합니다.
앞으로 AI 에이전트 개발자들은 VAKRA 가 제시하는 실패 모드 분석을 통해 자신의 모델이 어디서 약점을 보이는지 진단할 수 있게 됩니다. 54 개 도메인에서 수행된 2,077 개의 테스트 사례는 향후 에이전트 성능 향상을 위한 구체적인 로드맵이 될 것입니다. 이제 우리는 에이전트가 단순히 정답을 맞추는지 여부를 넘어, 실제 복잡한 업무 흐름 속에서 얼마나 견고하게 작동하는지를 따져봐야 할 시점에 도달했습니다.