인공지능 모델의 성능을 결정하는 핵심 변수가 더 이상 방대한 데이터의 양이 아닙니다. 이제는 데이터가 얼마나 명확한 학습 신호를 담고 있느냐가 더 중요해졌습니다.
웹 텍스트나 코드, 수학 문제 등 일반적인 데이터는 넓은 기초를 제공하지만, 특정 태스크에 맞춰 구조화된 합성 데이터가 모델의 깊이 있는 이해를 돕는 결정적 역할을 합니다.
엔비디아는 최근 Hugging Face 블로그를 통해 네모트론 계열 모델 학습을 위한 태스크 시드 합성 Q&A 생성 파이프라인을 공개했습니다. 이 방식은 공개된 태스크 학습 분할을 능력의 씨앗으로 삼아 새로운 예시를 생성하고, 여기에 추론 과정과 관련 지식을 풍부하게 더하는 과정을 거칩니다.
이렇게 만들어진 데이터는 필터링을 거쳐 정제된 합성 데이터셋으로 활용됩니다.
실제 1000 억 토큰 규모의 연속 실험에서 이 전략의 효과가 뚜렷하게 나타났습니다. 네모트론-3 나노 모델을 대상으로 한 테스트에서 태스크 시드 합성 데이터 생성 기법을 적용한 결과, MMLU-Pro 점수가 1.8 포인트 상승했습니다.
평균 코드 성능은 1.9 포인트, 상식 이해도는 1.6 포인트 각각 개선되었습니다.
가장 주목할 만한 수치는 GPQA 점수입니다. 이 항목에서 무려 11.1 포인트나 큰 폭의 향상을 기록했습니다.
반면 평균 수학 점수는 안정적으로 유지되었습니다. 이는 모델이 단순한 계산 능력보다는 복잡한 추론과 전문 지식 연결 능력을 크게 향상시켰음을 의미합니다.
이러한 변화는 향후 대규모 모델 학습의 방향성을 제시합니다. 단순히 데이터를 많이 긁어모으는 방식에서 벗어나, 의도적으로 설계된 구조화된 데이터를 전략적으로 혼합하는 시대가 열렸습니다.
모델이 가진 잠재력을 극대화하기 위해서는 데이터의 질적 구성과 학습 신호의 명확성이 핵심 경쟁력이 될 것입니다.