Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Mind the Gap: Bridging Thought Leap for Improved Chain-of-Thought Tuning

Created by
  • Haebom

저자

Haolei Xu, Yuchen Yan, Yongliang Shen, Wenqi Zhang, Guiyang Hou, Shengpei Jiang, Kaitao Song, Weiming Lu, Jun Xiao, Yueting Zhuang

개요

본 논문은 Chain-of-Thought (CoT) 추론을 사용하는 대규모 언어 모델(LLM)의 수학적 과제 해결 능력 향상을 위한 연구를 제시한다. 기존 수학적 CoT 데이터셋은 전문가가 중간 단계를 생략하여 Thought Leaps 문제를 겪는데, 이는 모델 학습과 일반화에 부정적인 영향을 미친다. 이를 해결하기 위해, 논문에서는 Thought Leaps를 자동으로 감지하고 누락된 중간 추론 단계를 생성하여 CoT의 완전성과 일관성을 복원하는 CoT Thought Leap Bridge Task를 제안한다. ScaleQuestMath 데이터셋을 기반으로 구축한 ScaleQM+라는 특수 훈련 데이터셋을 사용하여 CoT-Bridge를 훈련시켰으며, 여러 수학적 추론 벤치마크에서 Bridged 데이터셋으로 미세 조정된 모델이 원본 데이터셋으로 훈련된 모델보다 최대 +5.87% (NuminaMath 기준) 향상된 성능을 보임을 실험적으로 증명한다. 또한 증류된 데이터 향상 (+3.02%) 및 강화 학습의 시작점 개선 (+3.1%) 효과와 기존 최적화 기법과의 호환성을 보여주며, 도메인 외 논리적 추론 과제에서도 일반화 성능이 향상됨을 확인하여 추론 완전성 향상의 광범위한 적용 가능성을 입증한다.

시사점, 한계점

시사점:
CoT Thought Leap Bridge Task 및 ScaleQM+ 데이터셋을 통해 Thought Leaps 문제를 효과적으로 해결하고 LLM의 수학적 추론 성능을 향상시킬 수 있음을 보여줌.
Bridged 데이터셋으로 미세 조정된 모델이 기존 모델보다 여러 벤치마크에서 성능 향상을 보임.
증류된 데이터 및 강화 학습 성능 향상에 기여하며, 기존 최적화 기법과 호환 가능한 플러그 앤 플레이 모듈로 활용 가능.
도메인 외 논리적 추론 과제에서도 일반화 성능 향상을 보임으로써, 추론 완전성 향상의 광범위한 적용 가능성을 확인.
한계점:
ScaleQM+ 데이터셋의 규모 및 다양성에 대한 추가적인 검토 필요.
다른 유형의 추론 문제에 대한 일반화 성능 평가 추가 필요.
CoT-Bridge의 계산 비용 및 효율성에 대한 분석 필요.
👍