Shorter but not Worse: Frugal Reasoning via Easy Samples as Length Regularizers in Math RLVR
Created by
Haebom
Category
Empty
저자
Abdelaziz Bounhar, Hadi Abdine, Evan Dufraisse, Ahmad Chamma, Amr Mohamed, Dani Bouch, Michalis Vazirgiannis, Guokan Shang
개요
본 논문은 단계별 추론을 위해 훈련된 대규모 언어 모델(LLM)이 과도하게 장황해지는 문제를 해결하기 위해, 간단한 문제를 적절히 활용하는 방식을 제안합니다. 기존의 강화 학습 기반 훈련 방식이 어려운 문제에 집중하여 모델이 더 긴 추론을 "더 좋은 추론"으로 오해하게 만드는 문제를 지적하고, 간단한 문제를 함께 학습함으로써 출력 길이 조절 효과를 얻는 방법을 제시합니다. 이 방식을 통해 모델은 명시적인 길이 페널티 없이도 더 짧고 효율적인 솔루션을 생성하며, Qwen3-4B-Thinking-2507 모델을 기반으로 한 실험에서 baseline pass@1 AIME25 정확도를 유지하면서 평균적으로 절반 길이의 솔루션을 생성하는 결과를 얻었습니다.
시사점, 한계점
•
시사점:
◦
간단한 문제의 활용을 통해 LLM의 출력 길이를 효과적으로 제어할 수 있음.
◦
명시적인 길이 페널티 없이도 "emergent brevity" 효과를 달성 가능.
◦
RLVR 기반 훈련 방식의 효율성을 향상시키면서, 모델의 실용성을 높임.
•
한계점:
◦
특정 모델 (Qwen3-4B-Thinking-2507) 및 작업 (AIME25)에 대한 실험 결과에 국한됨.
◦
모델 일반화 능력에 대한 추가적인 연구 필요.
◦
"moderately easy" 문제의 선정 기준 및 가중치 결정에 대한 구체적인 방법론 제시 부족.