본 논문은 대규모 언어 모델(LLM)을 이용한 합성 데이터 생성을 통해 모델 추론 능력을 향상시키는 새로운 방법인 SPARQ(Synthetic Problem Generation for Reasoning via Quality-Diversity Algorithms)를 제시합니다. 기존 방법들이 대규모 모델을 소규모 모델로 증류하거나, 또는 정답이 있는 문제 문항을 사용하는 것과 달리, SPARQ는 단일 모델만을 사용하여 문제의 해결률(난이도 척도)을 측정하여 고품질의 다양한 합성 수학 문제 및 솔루션 쌍을 생성합니다. 7.5K 개의 샘플 데이터셋으로부터 2천만 개 이상의 새로운 문제-솔루션 쌍을 생성하고, 난이도 기반 필터링 후 동일 모델을 미세조정하여 모델 성능을 최대 24% 향상시켰습니다. 합성 데이터의 양, 질, 다양성이 모델 일반화에 미치는 영향을 분석하여, 난이도가 높은 고품질 데이터가 내부 분포(in-distribution) 성능 향상에 효과적임을 밝혔습니다. 또한 다양한 데이터는 내부 분포 성능에는 큰 영향을 미치지 않지만, 외부 분포(out-of-distribution) 일반화에는 도움이 됨을 보였습니다. 마지막으로, 합성 데이터 생성 문제에 대한 모델 및 데이터 스케일링 법칙을 확인하여, 이것이 하류 모델 일반화에 긍정적인 영향을 미침을 확인했습니다.