Sign In

Shorter but not Worse: Frugal Reasoning via Easy Samples as Length Regularizers in Math RLVR

Created by
  • Haebom
Category
Empty

저자

Abdelaziz Bounhar, Hadi Abdine, Evan Dufraisse, Ahmad Chamma, Amr Mohamed, Dani Bouch, Michalis Vazirgiannis, Guokan Shang

개요

본 논문은 단계별 추론을 위해 훈련된 대규모 언어 모델(LLM)이 과도하게 장황해지는 문제를 해결하기 위해, 간단한 문제를 적절히 활용하는 방식을 제안합니다. 기존의 강화 학습 기반 훈련 방식이 어려운 문제에 집중하여 모델이 더 긴 추론을 "더 좋은 추론"으로 오해하게 만드는 문제를 지적하고, 간단한 문제를 함께 학습함으로써 출력 길이 조절 효과를 얻는 방법을 제시합니다. 이 방식을 통해 모델은 명시적인 길이 페널티 없이도 더 짧고 효율적인 솔루션을 생성하며, Qwen3-4B-Thinking-2507 모델을 기반으로 한 실험에서 baseline pass@1 AIME25 정확도를 유지하면서 평균적으로 절반 길이의 솔루션을 생성하는 결과를 얻었습니다.

시사점, 한계점

시사점:
간단한 문제의 활용을 통해 LLM의 출력 길이를 효과적으로 제어할 수 있음.
명시적인 길이 페널티 없이도 "emergent brevity" 효과를 달성 가능.
RLVR 기반 훈련 방식의 효율성을 향상시키면서, 모델의 실용성을 높임.
한계점:
특정 모델 (Qwen3-4B-Thinking-2507) 및 작업 (AIME25)에 대한 실험 결과에 국한됨.
모델 일반화 능력에 대한 추가적인 연구 필요.
"moderately easy" 문제의 선정 기준 및 가중치 결정에 대한 구체적인 방법론 제시 부족.
👍