최근 AI 코딩 모델의 성능을 가늠하는 새로운 기준이 등장하며 개발자 커뮤니티를 뜨겁게 달구고 있습니다. 구글의 Antigravity 2.0이 고대 로마의 파테온을 OpenSCAD라는 파라메트릭 3D 모델링 언어로 재현하는 벤치마크에서 압도적인 1위를 기록한 것이 그 시작입니다. 단순한 기하학적 도형이 아닌, 돔 내부의 정교한 코ffer 패턴과 오쿨루스를 통과하는 빛의 구조까지 구현해낸 이 결과는 AI가 공간 추론 능력을 얼마나 성숙시켰는지 보여주는 분수령이 되었습니다. 특히 복잡한 건축 구조물을 이미지 참조만으로 파라미터화된 코드로 변환해내는 과정은 기존 모델들이 쉽게 넘지 못하던 장벽을 허문 사례로 평가받습니다.
하지만 기술적 성취에 대한 찬사 뒤에는 냉정한 현실에 대한 지적도 함께 쏟아지고 있습니다. 일부 사용자들은 Antigravity 2.0이 벤치마크에서는 압도적인 점수를 받았음에도, 실제 환경에서는 브라우저 로그인이 필수적이거나 IDE 업데이트가 지연되는 등 사용자 경험 측면에서 아직은 미흡한 부분이 있다고 지적합니다. 이는 AI 모델이 특정 과제를 수행하는 데는 탁월하지만, 일상적인 개발 흐름에 자연스럽게 녹아들기 위해서는 더 많은 안정화가 필요하다는 신호로 해석됩니다. 벤치마크 점수 1위라는 타이틀이 실제 업무 환경에서의 만족도로 바로 이어지지 않는다는 사실이 커뮤니티의 주요 논쟁점이 되고 있습니다.
이벤트의 핵심은 단순히 어떤 모델이 가장 높은 점수를 받았는가가 아니라, ‘완전한 자율성’이 과연 현실적인 워크플로우가 될 수 있는지에 대한 질문으로 확장됩니다. 벤치마크 결과를 분석한 보고서들은 현재 시점에서 인간이 개입하는 루프가 없다면 정밀한 CAD 부품 생성이나 복잡한 건축 모델링에서 오류가 발생할 확률이 높다고 결론 내립니다. 가장 빠른 속도를 자랑한 커서 컴포저가 가장 약한 결과를 보인 반면, 인간이 개입하여 수정을 가한 모델이 더 높은 품질을 기록한 점은 속도와 정확도 사이의 균형을 다시 한번 생각하게 만듭니다. 이는 AI가 모든 것을 스스로 해결하는 단계로 넘어가기 전에, 인간과 AI가 협력하는 하이브리드 방식이 당분간은 필수불가결하다는 사실을 시사합니다.
앞으로 주목해야 할 점은 AI 모델이 단순한 코드 생성을 넘어 공간적 맥락을 이해하고 설계 의도를 파악하는 수준으로 진화할지 여부입니다. 파테온 벤치마크는 AI가 3D 구조를 이해하는 능력을 측정하는 중요한 이정표가 되었지만, 동시에 현재 기술이 가진 한계점도 적나라하게 드러냈습니다. 향후 개발자들은 벤치마크 점수 경쟁보다는 실제 프로젝트에서 안정적으로 작동하는지, 그리고 인간 디자이너의 의도를 얼마나 정교하게 반영하는지에 더 집중할 것으로 보입니다. 기술의 진보 속도가 빨라지고 있지만, 그 진보가 실제 현장에 어떻게 적용될지에 대한 냉철한 검증이 필요한 시점입니다.