본 논문은 Chain-of-Thought (CoT) 추론을 사용하는 대규모 언어 모델(LLM)의 수학적 과제 해결 능력 향상을 위한 연구를 제시한다. 기존 수학적 CoT 데이터셋은 전문가가 중간 단계를 생략하여 Thought Leaps 문제를 겪는데, 이는 모델 학습과 일반화에 부정적인 영향을 미친다. 이를 해결하기 위해, 논문에서는 Thought Leaps를 자동으로 감지하고 누락된 중간 추론 단계를 생성하여 CoT의 완전성과 일관성을 복원하는 CoT Thought Leap Bridge Task를 제안한다. ScaleQuestMath 데이터셋을 기반으로 구축한 ScaleQM+라는 특수 훈련 데이터셋을 사용하여 CoT-Bridge를 훈련시켰으며, 여러 수학적 추론 벤치마크에서 Bridged 데이터셋으로 미세 조정된 모델이 원본 데이터셋으로 훈련된 모델보다 최대 +5.87% (NuminaMath 기준) 향상된 성능을 보임을 실험적으로 증명한다. 또한 증류된 데이터 향상 (+3.02%) 및 강화 학습의 시작점 개선 (+3.1%) 효과와 기존 최적화 기법과의 호환성을 보여주며, 도메인 외 논리적 추론 과제에서도 일반화 성능이 향상됨을 확인하여 추론 완전성 향상의 광범위한 적용 가능성을 입증한다.
시사점, 한계점
•
시사점:
◦
CoT Thought Leap Bridge Task 및 ScaleQM+ 데이터셋을 통해 Thought Leaps 문제를 효과적으로 해결하고 LLM의 수학적 추론 성능을 향상시킬 수 있음을 보여줌.
◦
Bridged 데이터셋으로 미세 조정된 모델이 기존 모델보다 여러 벤치마크에서 성능 향상을 보임.
◦
증류된 데이터 및 강화 학습 성능 향상에 기여하며, 기존 최적화 기법과 호환 가능한 플러그 앤 플레이 모듈로 활용 가능.
◦
도메인 외 논리적 추론 과제에서도 일반화 성능 향상을 보임으로써, 추론 완전성 향상의 광범위한 적용 가능성을 확인.