인공지능이 단순히 주어진 문장을 완성하거나 버그를 수정하는 수준을 넘어, 컴파일된 실행 파일과 문서만 보고 전체 프로그램을 처음부터 다시 설계하고 구현할 수 있을까요. 최근 페이스북 리서치가 공개한 프로그래밍 벤치마크가 바로 이 질문을 던지며 개발자들과 AI 연구자들의 시선을 사로잡고 있습니다. 기존에 존재하던 평가 지표들은 주로 특정 기능 추가나 단일 버그 수정 같은 국소적인 작업에 집중해 왔지만, 실제 AI 에이전트가 장기적으로 소프트웨어를 유지하고 확장하는 현실적인 환경을 반영하기에는 부족함이 있었습니다. 이 새로운 벤치마크는 AI 가 고수준의 소프트웨어 아키텍처 결정을 내릴 수 있는지를 종합적으로 측정하려 시도하며, AI 코딩의 진정한 성숙도를 가늠하는 새로운 척도로 주목받고 있습니다.
이 벤치마크의 핵심은 200 개의 다양한 과제를 통해 AI 의 능력을 검증하는 데 있습니다. 작은 명령줄 도구부터 FFmpeg, SQLite, PHP 인터프리터 같은 널리 쓰이는 소프트웨어까지 폭넓은 범위를 다루며, AI 에이전트가 오직 실행 파일과 문서만을 보고 참조 실행 파일의 동작과 일치하는 코드베이스를 구축하도록 요구합니다. 특히 구현 구조를 미리 정해두지 않고 에이전트 주도 퍼징을 통해 행동 테스트를 생성함으로써, AI 가 자유롭게 아키텍처를 설계할 수 있는 환경을 조성했습니다. 그러나 9 개의 대형 언어 모델을 평가한 결과, 단 한 개의 모델조차 모든 과제를 완벽하게 해결하지는 못했습니다. 가장 성능이 좋은 모델조차 전체 과제의 3 퍼센트에서 95 퍼센트의 테스트를 통과하는 데 그쳤으며, 이는 AI 가 여전히 전체적인 소프트웨어 공학 작업을 수행하는 데 상당한 어려움을 겪고 있음을 시사합니다.
흥미로운 점은 AI 가 생성한 코드가 인간 개발자가 작성한 코드와 확연히 다른 양상을 보인다는 것입니다. 연구 결과에 따르면 모델들은 인간이 선호하는 모듈화된 구조보다는 단일 파일에 모든 로직을 담는 모놀리식 구조를 선호하는 경향이 뚜렷하게 나타났습니다. 이는 과거 비주얼 베이직 5, 6 시절의 단일 파일 작업 방식이나, 최근 일부 개발자들이 선호하는 간결한 코드 스타일과 유사하지만, 대규모 프로젝트에서는 유지보수와 협업에 어려움을 줄 수 있는 요소로 지적됩니다. 인간은 작업을 나누고 파일을 분리하여 가독성과 확장성을 높이는 반면, AI 는 전체적인 맥락을 하나의 파일로 통합하려는 성향을 보이며, 이는 AI 의 학습 데이터나 추론 방식에서 비롯된 독특한 코딩 습관으로 해석됩니다.
이러한 발견은 AI 코딩 도구의 현재 위치와 향후 발전 방향에 대해 중요한 시사점을 줍니다. 비록 현재로서는 AI 가 인간 수준의 전체 프로젝트 구축 능력을 완전히 갖추지 못했지만, 이 벤치마크는 AI 에이전트가 어떻게 소프트웨어를 사고하고 구조화하는지를 명확하게 보여줍니다. 개발자들은 이제 AI 가 생성한 코드가 단순히 작동하는지 여부를 넘어, 그 구조가 인간과 어떻게 다른지, 그리고 장기적인 유지보수에는 어떤 영향을 미칠지를 고려해야 합니다. 앞으로는 AI 가 인간과 더 자연스럽게 협업할 수 있도록 단일 파일 선호 경향을 어떻게 조절할지, 혹은 복잡한 아키텍처를 스스로 설계할 수 있는지가 다음 단계의 핵심 쟁점이 될 것입니다. 이 벤치마크가 제시한 새로운 기준은 AI 가 단순한 코딩 도구를 넘어 진정한 소프트웨어 엔지니어로 성장해 가는 과정을 지켜보는 중요한 이정표가 될 것입니다.