Sign In

Where Hindsight Credit Can Reside: A Signed-Capacity View of Token Updates in RLVR

Author
  • Haebom
Category
Empty

저자

Yuhang He, Haodong Wu, Siyi Liu, Hongyu Ge, Hange Zhou, Keyi Wu, Zhuo Zheng, Qihong Lin, Zixin Zhong, Yongqi Zhang

💡 개요

본 논문은 강화학습 기반의 LLM 추론 능력 향상 기법인 RLVR에서 발생하는 희소한 보상 문제로 인한 토큰 단위의 기여도 할당 어려움을 해결하고자 합니다. 제안된 Signed-Capacity View는 토큰의 정보량(엔트로피)과 보상의 극성(부호)을 분리하여 토큰 업데이트 방향을 분석하고, 이를 바탕으로 Hindsight-Aware Policy Optimization (HAPO)라는 새로운 정책 최적화 방법을 제시합니다. 실험 결과, HAPO는 수학적 추론 능력을 향상시키며 기존 기법들과 경쟁력 있는 성능을 보였습니다.

🔑 시사점 및 한계

RLVR에서 토큰 기여도 할당 문제는 보상 극성과 토큰 엔트로피라는 두 가지 요인의 복합적인 상호작용으로 이해될 수 있습니다.
높은 엔트로피를 가진 긍정적인 업데이트 방향의 토큰 업데이트가 지속적인 추론 능력 향상에 중요한 역할을 합니다.
제안된 HAPO 방법은 LLM의 추론 능력 향상에 효과적이지만, 다양한 추론 태스크에서의 일반화 가능성과 최적의 용량(capacity) 가이드라인 설정에 대한 추가 연구가 필요합니다.
👍