Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Revisiting Entropy in Reinforcement Learning for Large Reasoning Models

Created by
  • Haebom
Category
Empty

저자

Renren Jin, Pengzhi Gao, Yuqi Ren, Zhuowen Han, Tongxuan Zhang, Wuwei Huang, Wei Liu, Jian Luan, Deyi Xiong

개요

강화 학습 (RLVR)을 통해 대규모 언어 모델 (LLM)의 추론 능력을 향상시키는 방법이 널리 사용되고 있지만, RLVR 훈련 중 LLM의 엔트로피가 감소하여 조기 수렴 및 성능 저하를 야기한다는 문제점이 있다. 본 논문에서는 RLVR로 훈련된 LLM의 엔트로피 역학을 광범위하게 연구하고, 모델 엔트로피가 다양한 벤치마크에서 응답 다양성, 보정, 성능과 어떻게 연관되는지 분석한다. 또한, 오프-정책 업데이트 수, 훈련 데이터의 다양성, 최적화 목표의 클리핑 임계값이 RLVR로 훈련된 LLM의 엔트로피에 중요한 영향을 미친다는 것을 밝힌다. 긍정적 어드밴티지를 가진 토큰이 엔트로피 감소의 주요 원인이며, 훈련 중 긍정적 및 부정적 어드밴티지를 가진 토큰의 상대적 손실 가중치를 조정하여 모델 엔트로피를 효과적으로 조절할 수 있음을 이론적 및 경험적으로 입증한다.

시사점, 한계점

RLVR 훈련 중 LLM의 엔트로피 감소 현상에 대한 심층 분석을 제공한다.
엔트로피가 응답 다양성, 보정, 성능에 미치는 영향을 규명한다.
오프-정책 업데이트, 훈련 데이터 다양성, 클리핑 임계값이 엔트로피에 미치는 영향을 밝힌다.
긍정적 어드밴티지를 가진 토큰의 역할과 손실 가중치 조절을 통한 엔트로피 제어 가능성을 제시한다.
구체적인 RLVR 훈련 환경에서의 실험 결과에 국한될 수 있다.
이론적 분석의 일반화 가능성에 대한 추가 연구가 필요하다.
다른 유형의 LLM 및 RLVR 알고리즘에 대한 적용 가능성 연구가 필요하다.
👍