본 논문은 대규모 언어 모델(LLM)의 수학적 추론 능력 향상을 위해, 경량 7B 규모 모델을 이용하여 대규모 수학 추론 데이터셋을 생성하는 확장 가능하고 비용 효율적인 새로운 데이터 합성 방법인 ScaleQuest를 제안합니다. ScaleQuest는 질문 미세 조정(QFT)과 질문 선호도 최적화(QPO)라는 두 단계 질문 조정 프로세스를 통해 문제 해결 모델의 질문 생성 능력을 향상시킵니다. 강력한 독점 모델이나 시드 데이터에 의존하지 않고 다양한 질문을 생성하여 100만 개의 문제-해결책 쌍으로 구성된 데이터셋을 생성합니다. 실험 결과, 본 논문에서 제안하는 데이터로 훈련된 모델은 기존 오픈소스 데이터셋보다 도메인 내 및 도메인 외 평가 모두에서 성능이 뛰어납니다. 또한, 훈련 데이터 양이 증가함에 따라 성능이 지속적으로 향상되어 데이터 확장 가능성을 보여줍니다. 특히 코드 추론 작업에서 상당한 성능 향상이 관찰되어 제안된 방법의 일반화 능력을 입증합니다. 이 연구는 오픈소스 커뮤니티에 LLM의 수학적 추론 능력을 향상시키는 실용적인 해결책을 제공합니다.
시사점, 한계점
•
시사점:
◦
경량 모델을 이용한 대규모 수학 추론 데이터셋 생성 방법을 제시하여 오픈소스 커뮤니티의 접근성을 높였습니다.
◦
기존 오픈소스 데이터셋보다 우수한 성능을 보이는 대규모 데이터셋을 생성했습니다.
◦
데이터 양 증가에 따라 성능이 지속적으로 향상되는 확장성을 보여주었습니다.
◦
코드 추론 작업에서의 성능 향상을 통해 일반화 능력을 입증했습니다.
•
한계점:
◦
ScaleQuest의 성능이 7B 규모 모델에 의존적일 수 있습니다. 더 작거나 더 큰 모델에 대한 성능은 추가 연구가 필요합니다.
◦
생성된 데이터셋의 질적 평가에 대한 추가적인 분석이 필요할 수 있습니다.
◦
특정 유형의 수학 문제에 편향될 가능성이 있으며, 다양한 유형의 문제를 포함하도록 추가적인 개선이 필요할 수 있습니다.