본 논문은 강화학습 기반의 LLM 추론 능력 향상 기법인 RLVR에서 발생하는 희소한 보상 문제로 인한 토큰 단위의 기여도 할당 어려움을 해결하고자 합니다. 제안된 Signed-Capacity View는 토큰의 정보량(엔트로피)과 보상의 극성(부호)을 분리하여 토큰 업데이트 방향을 분석하고, 이를 바탕으로 Hindsight-Aware Policy Optimization (HAPO)라는 새로운 정책 최적화 방법을 제시합니다. 실험 결과, HAPO는 수학적 추론 능력을 향상시키며 기존 기법들과 경쟁력 있는 성능을 보였습니다.
🔑 시사점 및 한계
•
RLVR에서 토큰 기여도 할당 문제는 보상 극성과 토큰 엔트로피라는 두 가지 요인의 복합적인 상호작용으로 이해될 수 있습니다.
•
높은 엔트로피를 가진 긍정적인 업데이트 방향의 토큰 업데이트가 지속적인 추론 능력 향상에 중요한 역할을 합니다.
•
제안된 HAPO 방법은 LLM의 추론 능력 향상에 효과적이지만, 다양한 추론 태스크에서의 일반화 가능성과 최적의 용량(capacity) 가이드라인 설정에 대한 추가 연구가 필요합니다.