Flexible Entropy Control in RLVR with a Gradient-Preserving Perspective

작성자

Haebom

카테고리

Empty

저자

Kun Chen, Peng Shi, Fanfan Liu, Haibo Qiu, Zhixiong Zeng, Siqi Yang, Wenji Mao

💡 개요

본 논문은 대규모 언어 모델(LLM)의 추론 능력을 향상시키는 중요한 방법론인 RLVR(Reinforcement Learning with Verifiable Rewards)에서 발생하는 정책 엔트로피 붕괴 문제를 해결하고자 합니다. 연구진은 Gradient-Preserving Clipping 관점에서 엔트로피 제어 방식을 재정립하고, 동적 클리핑 임계값을 활용한 새로운 규제 메커니즘과 다양한 엔트로피 제어 전략을 제안합니다. 이를 통해 엔트로피 붕괴를 효과적으로 완화하고 여러 벤치마크에서 뛰어난 성능을 달성했습니다.

🔑 시사점 및 한계

•

RLVR에서 발생하는 정책 엔트로피 붕괴 현상의 원인이 Gradient-Preserving Clipping과 밀접하게 관련되어 있음을 이론적, 경험적으로 규명했습니다.

•

중요 샘플링 비율 영역별 엔트로피 기여도를 분석하여 동적 클리핑 임계값 기반의 엔트로피 제어 메커니즘을 새롭게 제시했습니다.

•

제안된 동적 엔트로피 제어 전략(증감 후 감소, 감소-증감-감소, 진동 감소)이 엔트로피 붕괴를 효과적으로 완화하고 LLM의 성능을 향상시킴을 실험적으로 입증했습니다.

•

제안된 동적 엔트로피 제어 전략들이 특정 엔트로피 붕괴 패턴에만 최적화될 수 있으며, 일반적인 LLM 학습 상황에 대한 일반화 성능 검증이 더 필요할 수 있습니다.

PDF 보기

Made with Slashpage