Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

CoRT: Code-integrated Reasoning within Thinking

Created by
  • Haebom

저자

Chengpeng Li, Zhengyang Tang, Ziniu Li, Mingfeng Xue, Keqin Bao, Tian Ding, Ruoyu Sun, Benyou Wang, Xiang Wang, Junyang Lin, Dayiheng Liu

개요

본 논문은 대규모 추론 모델(LRM)이 복잡한 수학 연산을 처리하는 데 비효율적이거나 부정확하다는 문제를 해결하기 위해, 코드 인터프리터(CI)를 효과적이고 효율적으로 활용하는 사후 학습 프레임워크인 CoRT를 제안합니다. 데이터 부족 문제를 해결하기 위해, 전략적으로 다른 힌트를 삽입하여 LRM-CI 상호 작용을 최적화하는 Hint-Engineering 기법을 통해 코드 통합 추론 데이터를 합성합니다. 30개의 고품질 샘플을 수동으로 생성하고, 15억~320억 매개변수의 모델을 지도 학습, 거부 학습, 강화 학습으로 사후 학습합니다. 실험 결과, Hint-Engineering 모델은 다섯 가지 어려운 수학 추론 데이터셋에서 DeepSeek-R1-Distill-Qwen-32B와 DeepSeek-R1-Distill-Qwen-1.5B에 대해 각각 4%와 8%의 절대적인 성능 향상을 달성했습니다. 또한, 자연어 모델에 비해 320억 매개변수 모델은 약 30%, 15억 매개변수 모델은 약 50% 적은 토큰을 사용합니다. 모델과 코드는 GitHub에서 공개됩니다.

시사점, 한계점

시사점:
LRM이 복잡한 수학 연산을 효과적으로 처리할 수 있도록 하는 새로운 사후 학습 프레임워크 CoRT를 제시합니다.
Hint-Engineering 기법을 통해 LRM-CI 상호 작용을 최적화하여 데이터 부족 문제를 해결합니다.
제한된 데이터로도 상당한 성능 향상을 달성하며, 토큰 사용량도 감소시킵니다.
한계점:
Hint-Engineering을 위한 고품질 샘플 생성에 많은 수작업이 필요합니다.
현재 다섯 가지 데이터셋에 대한 실험 결과만 제시되어 일반화 성능에 대한 추가적인 검증이 필요합니다.
다양한 유형의 수학 문제에 대한 성능 평가가 더 필요합니다.
사용된 힌트 전략의 최적화 및 일반화에 대한 추가 연구가 필요합니다.
👍