Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

SPARQ: Synthetic Problem Generation for Reasoning via Quality-Diversity Algorithms

Created by
  • Haebom

저자

Alex Havrilla, Edward Hughes, Mikayel Samvelyan, Jacob Abernethy

개요

본 논문은 대규모 언어 모델(LLM)을 이용한 합성 데이터 생성을 통해 모델 추론 능력을 향상시키는 새로운 방법인 SPARQ(Synthetic Problem Generation for Reasoning via Quality-Diversity Algorithms)를 제시합니다. 기존 방법들이 대규모 모델을 소규모 모델로 증류하거나, 또는 정답이 있는 문제 문항을 사용하는 것과 달리, SPARQ는 단일 모델만을 사용하여 문제의 해결률(난이도 척도)을 측정하여 고품질의 다양한 합성 수학 문제 및 솔루션 쌍을 생성합니다. 7.5K 개의 샘플 데이터셋으로부터 2천만 개 이상의 새로운 문제-솔루션 쌍을 생성하고, 난이도 기반 필터링 후 동일 모델을 미세조정하여 모델 성능을 최대 24% 향상시켰습니다. 합성 데이터의 양, 질, 다양성이 모델 일반화에 미치는 영향을 분석하여, 난이도가 높은 고품질 데이터가 내부 분포(in-distribution) 성능 향상에 효과적임을 밝혔습니다. 또한 다양한 데이터는 내부 분포 성능에는 큰 영향을 미치지 않지만, 외부 분포(out-of-distribution) 일반화에는 도움이 됨을 보였습니다. 마지막으로, 합성 데이터 생성 문제에 대한 모델 및 데이터 스케일링 법칙을 확인하여, 이것이 하류 모델 일반화에 긍정적인 영향을 미침을 확인했습니다.

시사점, 한계점

시사점:
단일 모델을 이용한 고품질, 다양한 합성 수학 문제 데이터 생성 방법 제시
문제 해결률 기반 난이도 측정 및 필터링을 통한 모델 성능 향상 (최대 24%)
합성 데이터의 양, 질, 다양성이 모델 일반화에 미치는 영향 분석 및 그 결과 제시 (고품질 데이터의 중요성 강조, 다양성의 OOD 일반화 향상 효과)
합성 데이터 생성 문제에 대한 모델 및 데이터 스케일링 법칙 확인
한계점:
현재 수학 문제에 국한된 접근 방식으로, 다른 유형의 문제에는 적용 가능성 검증 필요
난이도 측정 지표로 해결률만 사용하여, 문제의 본질적인 난이도를 완벽하게 반영하지 못할 가능성 존재
생성된 데이터의 품질과 다양성을 더욱 향상시킬 수 있는 추가 연구 필요
대규모 데이터셋 생성에 따른 계산 비용 고려 필요
👍