최근 대규모 언어 모델의 코딩 성능 향상을 위해 외부 도구나 복잡한 학습 과정 없이 모델 스스로의 데이터를 활용하는 방식이 주목받고 있습니다. 특히 arXiv 에 게재된 연구에 따르면, 외부 검증자나 교사 모델, 강화학습 없이 모델이 생성한 원시 출력만으로도 성능을 높일 수 있는 단순 자기 증류 기법이 유효함이 확인되었습니다. 이 방식은 특정 온도 및 잘라내기 설정으로 생성된 샘플을 표준 지도 학습으로 다시 학습시키는 과정으로, Qwen3-30B-Instruct 모델의 경우 라이브코드벤치 v6 기준 패스@1 점수가 42.4% 에서 55.3% 로 상승하는 결과를 보였습니다.
이러한 성과가 특히 어려운 문제에서 두드러지게 나타난 점은 흥미롭습니다. 연구진은 이를 모델의 디코딩 과정에서 발생하는 정밀도와 탐색 간의 충돌로 설명합니다. 코드는 문법과 의미가 명확한 고정 지점과 여러 가지 해법이 가능한 분기 지점이 공존하는데, 기존 모델은 전 세계적으로 최적의 디코딩 설정을 찾느라 이 두 요구 사이에서 타협을 강요받곤 했습니다. 단순 자기 증류는 이러한 맥락 의존적 토큰 분포를 재형성하여, 정밀도가 필요한 부분에서는 불필요한 꼬리 분포를 억제하고 탐색이 필요한 부분에서는 유용한 다양성을 유지하도록 돕습니다.
커뮤니티 반응은 이 기법이 모델의 잠재적 특성을 드러내는 중요한 단서로 해석하는 쪽으로 기울고 있습니다. 단순한 기술적 개선 이상으로, 모델이 스스로 상황에 맞춰 사고 모드를 전환하는 능력을 배양할 수 있음을 시사하기 때문입니다. 특히 4B, 8B, 30B 등 다양한 규모의 모델과 지시형 및 사고형 변형 모두에서 일반화되는 결과가 확인되면서, 추후 더 저렴하고 접근성이 높은 코딩 모델들이 등장할 가능성에 대한 기대감이 커지고 있습니다.
향후 주목해야 할 점은 이 기법이 실제 서비스 환경에서 어떻게 적용될지입니다. 현재까지의 증거는 모델이 스스로의 출력을 통해 더 나은 성능을 낼 수 있음을 보여주지만, 이것이 상용화 단계에서 얼마나 효율적으로 확장될지는 추가 검증이 필요합니다. 다만, 복잡한 외부 인프라 없이도 모델 내부의 잠재력을 끌어올릴 수 있는 새로운 방향성이 제시되었다는 점은 향후 LLM 후학습 전략에서 중요한 이정표가 될 것으로 보입니다.