Beyond Uniform Credit Assignment: Selective Eligibility Traces for RLVR

작성자

Haebom

카테고리

Empty

저자

Chaoli Mou, Zhan Zhuang, Xinning Chen, Yu Zhang

💡 개요

본 논문은 대규모 언어 모델의 추론 능력을 향상시키는 Reinforcement Learning with Verifiable Rewards (RLVR) 분야에서 기존의 균일한 신용 할당 방식이 학습 효율성을 저해하는 문제를 해결하고자 합니다. 이를 위해, 낮은 엔트로피 토큰을 선택적으로 마스킹하여 미세한 신용 할당을 가능하게 하는 Selective Eligibility Traces (S-trace) 방법을 제안합니다. 실험 결과, S-trace는 기존 GRPO 방식 대비 우수한 성능을 보이면서도 높은 샘플 및 토큰 효율성을 달성했습니다.

🔑 시사점 및 한계

•

RLVR에서 균일한 신용 할당의 한계를 극복하고 학습 효율성을 높일 수 있는 새로운 방법론 제시.

•

S-trace는 미세한 신용 할당을 통해 모델의 추론 과정 중 중요한 단계를 효과적으로 식별하고 강화할 수 있음을 시사.

•

제안된 방법론의 일반화 가능성 및 다양한 RLVR 설정에서의 성능 검증 필요.

PDF 보기

Made with Slashpage