본 논문은 대규모 추론 모델(LRM)이 복잡한 수학 연산을 처리하는 데 비효율적이거나 부정확하다는 문제를 해결하기 위해, 코드 인터프리터(CI)를 효과적이고 효율적으로 활용하는 사후 학습 프레임워크인 CoRT를 제안합니다. 데이터 부족 문제를 해결하기 위해, 전략적으로 다른 힌트를 삽입하여 LRM-CI 상호 작용을 최적화하는 Hint-Engineering 기법을 통해 코드 통합 추론 데이터를 합성합니다. 30개의 고품질 샘플을 수동으로 생성하고, 15억~320억 매개변수의 모델을 지도 학습, 거부 학습, 강화 학습으로 사후 학습합니다. 실험 결과, Hint-Engineering 모델은 다섯 가지 어려운 수학 추론 데이터셋에서 DeepSeek-R1-Distill-Qwen-32B와 DeepSeek-R1-Distill-Qwen-1.5B에 대해 각각 4%와 8%의 절대적인 성능 향상을 달성했습니다. 또한, 자연어 모델에 비해 320억 매개변수 모델은 약 30%, 15억 매개변수 모델은 약 50% 적은 토큰을 사용합니다. 모델과 코드는 GitHub에서 공개됩니다.
시사점, 한계점
•
시사점:
◦
LRM이 복잡한 수학 연산을 효과적으로 처리할 수 있도록 하는 새로운 사후 학습 프레임워크 CoRT를 제시합니다.
◦
Hint-Engineering 기법을 통해 LRM-CI 상호 작용을 최적화하여 데이터 부족 문제를 해결합니다.
◦
제한된 데이터로도 상당한 성능 향상을 달성하며, 토큰 사용량도 감소시킵니다.
•
한계점:
◦
Hint-Engineering을 위한 고품질 샘플 생성에 많은 수작업이 필요합니다.
◦
현재 다섯 가지 데이터셋에 대한 실험 결과만 제시되어 일반화 성능에 대한 추가적인 검증이 필요합니다.