최근 6 개월 동안 인공지능 모델의 성능 순위가 5 번이나 뒤바뀌며 개발자 커뮤니티를 뜨겁게 달구고 있습니다. 단순히 모델 이름이 바뀌는 것을 넘어, 누가 ‘최고’인지 가르는 기준 자체가 유동적이 되어버린 상황입니다. 2025 년 11 월은 이러한 변화가 가장 극명하게 드러난 시점으로, 주요 3 개 기업에서 출시한 모델들이 순식간에 왕좌를 넘나들었습니다. 이 시기를 ‘2025 년 11 월의 분기점’이라 부르는 이유도 여기에 있습니다. 과거에는 특정 모델이 오랫동안 우위를 점했지만, 이제는 몇 달도 채 안 되어 주도권이 이동하며 시장의 예측 불가능성이 커졌습니다.
이러한 혼란 속에서도 가장 주목할 만한 변화는 코딩 에이전트의 실력 향상입니다. 2025 년 상반기 내내 주요 기업들은 검증 가능한 보상을 통한 강화 학습을 통해 모델이 작성하는 코드의 질을 높이는 데 집중했습니다. 그 결과물이 11 월에 본격적으로 드러나면서, 단순한 코드 생성을 넘어 복잡한 작업을 스스로 수행하는 에이전트들이 실전 투입 가능한 수준에 도달했다는 평가가 나옵니다. 특히 pelican 이 자전거를 타는 그림을 그리는 테스트 같은 독특한 기준을 통해 모델 간 미세한 차이를 비교하는 시도가 활발해졌는데, 이는 AI 가 추상적이고 난해한 작업에서도 얼마나 유연하게 대응하는지를 가늠하는 새로운 척도가 되고 있습니다.
하지만 모든 분야가 동일한 속도로 발전한 것은 아닙니다. 보안 전문가나 취약점 연구자들의 관점에서는 올해 봄이 더 중요한 전환점으로 다가왔습니다. 반면, 일반 사용자가 게임을 만드는 등 ‘느낌’으로 코딩을 시도할 때는 여전히 한계를 느끼는 경우도 많습니다. 최신 모델들이 기초적인 뼈대는 잘 잡아주지만, 완성도 높은 애플리케이션을 혼자서 뚝딱 만들어내지는 못한다는 지적도 있습니다. 이는 모델이 특정 작업에 특화되는 과정에서 발생한 현상으로, 기술의 발전 속도가 사용자의 체감 속도와 완벽하게 일치하지는 않음을 보여줍니다.
앞으로 주목해야 할 점은 이러한 성능 향상이 마케팅용 수사가 아니라 실제 산업 현장에 어떻게 녹아들 것인가입니다. 12 월 2025 년을 기점으로 일부 모델에서 폭발적인 성능 향상이 있었으나, 4 월에는 성능이 일시적으로 떨어지는 ‘너프’ 현상도 관찰되었습니다. 5 월에는 다시 성능이 회복되는 등 등락이 반복되고 있습니다. 이제는 모델의 이름이나 출시 날짜보다, 실제 사용자의 업무 효율을 얼마나 높여주는지가 중요한 기준이 될 것입니다. AI 의 발전 속도가 빨라질수록, 우리는 단순한 성능 지표보다는 실제 생활과 업무에 어떤 변화를 가져오는지 더 날카롭게 지켜봐야 할 때입니다.