Prismatic Synthesis: Gradient-based Data Diversification Boosts Generalization in LLM Reasoning
Created by
Haebom
저자
Jaehun Jung, Seungju Han, Ximing Lu, Skyler Hallinan, David Acuna, Shrimai Prabhumoye, Mostafa Patwary, Mohammad Shoeybi, Bryan Catanzaro, Yejin Choi
개요
본 논문은 언어 모델의 일반화 성능 향상을 위한 훈련 데이터 다양성의 중요성을 다룹니다. 기존의 다양성 측정 방법들이 모델의 행동과 분리된 표면적인 휴리스틱에 의존하는 한계를 지적하며, 실제로 일반화 성능을 향상시키는 데이터 다양성의 유형과 측정 및 증폭 방법을 제시합니다. 300회 이상의 대규모 실험을 통해 데이터 다양성이 언어 모델의 추론 능력(OOD 벤치마크 성능)과 강한 상관관계를 가짐을 보입니다. 모델이 생성하는 기울기의 엔트로피를 정량화하는 새로운 측정 지표인 G-Vendi를 제안하고, 이 지표가 기존 지표보다 OOD 성능과 높은 상관관계(Spearman's ρ ≈ 0.9)를 보임을 실증합니다. 또한, 기울기 공간의 과소표현 영역을 타겟팅하여 다양한 합성 데이터를 생성하는 프레임워크인 Prismatic Synthesis를 제시합니다. 실험 결과, Prismatic Synthesis는 합성 데이터의 규모가 커짐에 따라 in-distribution 및 OOD 벤치마크 모두에서 성능을 향상시키며, 기존 최첨단 모델보다 훨씬 우수한 성능을 보입니다. 예를 들어, 32B LLM에서 증류된 PrismMath-7B는 671B R1로 생성된 데이터로 학습된 R1-Distill-Qwen-7B보다 7개 벤치마크 중 6개에서 더 높은 성능을 기록합니다.
시사점, 한계점
•
시사점:
◦
언어 모델의 일반화 성능 향상에 있어 데이터 다양성의 중요성을 재확인하고, 기존 측정 방법의 한계를 극복하는 새로운 측정 지표 G-Vendi를 제시합니다.
◦
기울기 공간을 활용한 합성 데이터 생성 프레임워크 Prismatic Synthesis를 통해 효율적으로 데이터 다양성을 증폭하는 방법을 제시합니다.
◦
제한된 자원으로도 최첨단 모델을 능가하는 성능을 달성할 수 있음을 보여줍니다.
•
한계점:
◦
G-Vendi는 소규모 프록시 모델에 의존하므로, 프록시 모델의 성능에 따라 측정 결과가 영향을 받을 수 있습니다.
◦
Prismatic Synthesis의 성능은 합성 데이터의 품질에 의존하며, 모든 유형의 과제에 대해 효과적이지는 않을 수 있습니다.
◦
대규모 실험에도 불구하고, 특정 유형의 데이터 다양성이 다른 유형보다 더 효과적인 이유에 대한 심층적인 분석이 부족합니다.