본 논문은 대규모 언어 모델(LLM)의 프로그램 합성 및 수학적 추론 성능 향상을 위해, 공개 라이선스 하에 두 개의 새로운 데이터셋(SwallowCode, SwallowMath)을 제시합니다. SwallowCode는 The-Stack-v2의 파이썬 코드 스니펫을 4단계 파이프라인(구문 검증, 스타일 필터링, LLM 재작성)을 통해 개선하여 161억 토큰 규모의 고품질 데이터셋을 생성합니다. SwallowMath는 Finemath-4+ 데이터셋을 개선하여 23억 토큰 규모의 데이터셋을 생성하며, 불필요한 부분을 제거하고 맥락을 복원하고 풀이 과정을 간결하게 재구성합니다. Llama-3.1-8B 모델을 SwallowCode와 SwallowMath로 추가 학습시킨 결과, HumanEval, HumanEval+, GSM8K, MATH 벤치마크에서 성능이 상당히 향상됨을 확인하였으며, 각 파이프라인 단계의 기여도를 분석하는 실험도 수행했습니다. 모든 데이터셋, 프롬프트, 체크포인트는 공개적으로 제공되어 재현 가능한 연구를 지원합니다.
시사점, 한계점
•
시사점:
◦
저품질 데이터를 개선하여 LLM 성능 향상에 기여하는 새로운 데이터셋 생성 방법 제시.
◦
SwallowCode와 SwallowMath 데이터셋을 통해 프로그램 합성 및 수학적 추론 분야에서 LLM 성능을 크게 향상시킴을 실험적으로 증명.
◦
공개적으로 제공되는 데이터셋, 프롬프트, 체크포인트를 통해 재현 가능한 연구 및 LLM 전문 분야 사전 학습 발전에 기여.
◦
데이터셋 생성 파이프라인의 각 단계별 기여도 분석을 통해 효과적인 데이터 정제 전략 제시.
•
한계점:
◦
특정 프로그래밍 언어(Python)와 수학 문제 해결에 집중되어 있어 다른 분야로의 일반화 가능성에 대한 추가 연구 필요.