Sign In

Learn to Reason Efficiently with Adaptive Length-based Reward Shaping

Created by
  • Haebom
Category
Empty

저자

Wei Liu, Ruochen Zhou, Yiyun Deng, Yuzhen Huang, Junteng Liu, Yuntian Deng, Yizhe Zhang, Junxian He

개요

본 논문은 강화 학습(RL) 기반의 대규모 추론 모델(LRM)의 효율성 향상을 연구합니다. LRM은 복잡한 문제 해결에 뛰어난 능력을 보이지만, 긴 추론 과정으로 인해 불필요한 중복이 발생하는 문제점이 있습니다. 이를 해결하기 위해, 논문에서는 길이 기반 보상 설계라는 통합 프레임워크를 제시하고, 단계 함수를 이용한 새로운 보상 방법인 LASER를 제안합니다. LASER는 성능과 효율성 간의 균형을 최적화합니다. 더 나아가, 모델의 학습 과정과 문제의 난이도를 고려하여 보상을 동적으로 조절하는 LASER-D를 제안합니다. 실험 결과, LASER-D는 DeepSeek-R1-Distill-Qwen 모델들에서 성능 향상과 토큰 사용량 감소를 동시에 달성했습니다. 예를 들어, AIME2024에서 +6.1의 성능 향상과 63%의 토큰 사용량 감소를 보였습니다. 이는 중복적인 자기 반추를 줄이고 간결한 추론 패턴을 생성함으로써 달성되었습니다.

시사점, 한계점

시사점:
길이 기반 보상 설계를 통한 LRM의 효율성 향상 가능성을 제시.
LASER 및 LASER-D 알고리즘을 통해 성능과 효율성의 Pareto 최적화 달성.
동적이고 난이도 인식적인 보상 설계의 중요성을 강조.
RL 기반 압축을 통해 더 간결하고 효율적인 추론 패턴 생성 가능성 확인.
한계점:
제안된 방법의 일반성 및 다양한 LRM 및 문제 유형에 대한 적용 가능성에 대한 추가 연구 필요.
LASER-D의 동적 보상 조절 방식의 최적화 및 세부적인 매개변수 조정에 대한 추가 연구 필요.
특정 모델(DeepSeek-R1-Distill-Qwen)에 대한 실험 결과만 제시되어 일반화 가능성에 대한 추가 검증 필요.
👍