인공지능의 성능을 가늠하던 기존의 기준들이 한계에 부딪힌 지금, 라이프치히에서 열린 특별한 워크숍이 새로운 화두를 던졌습니다. 독일 라이프치히의 막스 플랑크 자연과학 수학회에서 열린 ‘벤치마크 인 라이프치히’ 행사는 단순한 기술 시연회를 넘어, AI 모델이 실제 연구 수준의 문제를 얼마나 신뢰할 수 있게 풀어나가는지 검증하는 장이었습니다.
이번 행사의 핵심은 49명의 수학자가 2026 년 4 월부터 5 월까지 약 3 일간 모여 직접 만든 100 개의 연구급 수학 문제였습니다. 이 문제들은 일반적인 시험지 수준을 훨씬 넘어, 해당 분야 박사 2 년 차 학생이 며칠에서 몇 주를 고민해야 풀 수 있는 난이도로 설계되었습니다.
기존에 공개된 데이터에 기반한 단순 암기나 패턴 매칭이 아닌, 진정한 추론 능력을 요구하는 문제들이었습니다.
이러한 엄격한 기준 앞에서 AI 모델들의 반응은 극명하게 갈렸습니다. 일부 모델은 많은 문제를 풀었으나 정답률은 낮아 실수 확률이 높게 나타났고, 다른 모델은 정답률은 높았으나 시도 자체를 포기하는 경우가 많았습니다.
특히 한 번의 시도로 문제를 해결하는 ‘원샷’ 성공률이 실제 활용 가능성을 판단하는 중요한 지표로 부각되었습니다. 단순히 정답을 맞춘 횟수보다, 틀린 답을 내놓지 않고 한 번에 해결하는 능력이 더 중요해진 것입니다.
실험 결과는 놀라운 진전을 보여주기도 했습니다. 초기 단계에서는 41 개의 문제가 완전히 풀리지 않았으나, 여러 단계를 거치며 미해결 문제는 2 개까지 줄어든 것으로 나타났습니다.
이는 최신 AI 모델들이 단순한 계산기를 넘어 복잡한 논리 구조를 이해하고 추론하는 능력이 급격히 성장하고 있음을 시사합니다. 하지만 여전히 2 개의 문제가 남았다는 사실은 AI 가 아직 완벽하지 않음을 보여주는 동시에, 앞으로 해결해야 할 과제를 명확히 제시합니다.
이제 우리는 AI 를 도구로 사용할 때 그 답이 얼마나 확신할 만한지 따져봐야 할 시점에 섰습니다. 라이프치히에서 시작된 이 시도는 앞으로 AI 모델 평가가 단순한 점수 경쟁이 아닌, 실제 업무 환경에서의 신뢰도 검증으로 방향을 틀고 있음을 보여줍니다.
다음 단계에서는 이러한 고난도 추론 능력을 바탕으로 AI 가 어떤 분야에서 가장 큰 변화를 일으킬지 주목해볼 필요가 있습니다.