생성형 AI 가 특정 작업에서 무한 반복에 빠지는 치명적 오류가 전 세계적으로 주목받고 있습니다. 특히 문서 인식이나 구조화된 데이터 추출 같은 실무 환경에서 모델이 같은 문장을 되풀이하며 멈추지 않는 현상은 신뢰도를 떨어뜨리는 주범이 됩니다.
기존 방식인 지도 학습만으로는 이 문제를 근본적으로 해결하기 어렵다는 사실이 최근 연구에서 명확해졌습니다.
브라질 포르투갈어 문서 인식 테스트에서 다양한 오픈소스 모델들이 1% 에서 33% 에 달하는 퇴화율을 보인 것은 놀라운 사실입니다. 단순히 정답 데이터를 학습시키는 방식은 올바른 출력을 유도할 뿐, 잘못된 반복 패턴을 명시적으로 벌주지 못하기 때문입니다.
이로 인해 모델은 정답을 맞추더라도 특정 조건에서 쉽게 붕괴되는 구조적 한계를 안게 됩니다.
이러한 한계를 돌파한 핵심 열쇠는 DPO, 즉 직접 선호도 최적화 기술의 확장 적용입니다. 기존 지도 학습 이후 동일한 문서로 두 번째 훈련 단계를 거치는 방식이 모든 모델 계열에서 일관된 개선을 이끌어냈습니다.
평균적으로 텍스트 퇴화율이 59.4% 감소했으며, 최상위 모델은 무려 87.6% 의 감소율을 기록했습니다.
이 결과는 DPO 가 단순한 챗봇 대화 품질 향상을 넘어, 시각 언어 모델이나 전문 OCR 작업에서도 결정적인 역할을 할 수 있음을 시사합니다. 모델이 스스로의 실패 사례를 거부 쌍으로 활용하여 학습하는 과정이 반복 루프를 방지하는 데 효과적이라는 점이 입증된 셈입니다.
이는 특정 작업에 특화된 모델 개발 시 새로운 표준 프로세스가 될 가능성이 큽니다.
앞으로 주목해야 할 점은 이 기술이 다양한 모델 아키텍처에 얼마나 빠르게 보편화될지입니다. 단순한 성능 향상을 넘어 산업용 AI 의 안정성을 담보하는 핵심 기술로 자리 잡을지, 그리고 상용 모델과 오픈소스 간의 격차를 줄이는 데 어떤 영향을 미칠지가 관건이 될 것입니다.