ConciseRL: Conciseness-Guided Reinforcement Learning for Efficient Reasoning Models
Created by
Haebom
저자
Razvan-Gabriel Dumitru, Darius Peteleaza, Vikas Yadav, Liangming Pan
개요
본 논문은 대규모 언어 모델이 복잡한 문제를 해결할 때 구조화된 추론 단계로 문제를 분해하지만, 추론 과정이 정답 도출을 넘어 불필요한 계산, 가독성 저하, 환각을 유발하는 문제를 해결하기 위해, 강화 학습 프레임워크 내에서 보상 신호로 사용되는 새로운 하이퍼파라미터 없는 간결성 점수를 제시한다. 이 점수는 판정자 역할을 하는 대규모 언어 모델에 의해 평가되며, 단순한 토큰 길이를 넘어 동적이고 맥락을 인식하는 피드백을 제공한다. MATH 데이터셋에서 최첨단 효율성-정확도 절충안을 달성하여, 간단한 문제에서는 최대 31배의 토큰 사용량을 줄이면서 정확도를 7% 향상시켰고, 가장 어려운 문제에서는 최대 3.6배 적은 토큰으로 전체 추론보다 정확도를 7.5% 향상시켰다. TheoremQA에서는 토큰 사용량을 12.5배 줄이면서 정확도를 2.2% 향상시켰다. 판정자 모델, 보상 구성, 문제 난이도에 대한 ablation study를 통해 제시된 방법이 문제 난이도에 따라 추론 길이를 동적으로 조정하고, 더 강력한 판정자로부터 상당한 이점을 얻는다는 것을 보여준다. 코드, 모델 가중치 및 데이터셋은 https://github.com/RazvanDu/ConciseRL 에서 공개되었다.