Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models

Created by
  • Haebom

저자

Ganqu Cui, Yuchen Zhang, Jiacheng Chen, Lifan Yuan, Zhi Wang, Yuxin Zuo, Haozhan Li, Yuchen Fan, Huayu Chen, Weize Chen, Zhiyuan Liu, Hao Peng, Lei Bai, Wanli Ouyang, Yu Cheng, Bowen Zhou, Ning Ding

개요

본 논문은 강화학습(RL)에서 대규모 언어모델(LLM)을 사용한 추론의 확장성을 저해하는 주요 문제점인 정책 엔트로피 붕괴를 해결하는 것을 목표로 합니다. 다양한 RL 실행에서 엔트로피 개입 없이 정책 엔트로피가 초기 훈련 단계에서 급격히 감소하는 현상이 일관되게 관찰되었으며, 이러한 탐색 능력의 감소는 항상 정책 성능의 포화를 수반합니다. 본 논문에서는 엔트로피 H와 성능 R 사이의 변환 방정식 R = -a*e^H + b를 실험적으로 확립합니다. 이 경험적 법칙은 정책 성능이 정책 엔트로피에서 거래되며, 따라서 고갈에 의해 병목 현상이 발생하고, 상한선은 H=0, R=-a+b로 완전히 예측 가능함을 강하게 시사합니다. 이러한 발견은 RL에 대한 컴퓨팅 확장을 위한 지속적인 탐색을 위해 엔트로피 관리가 필요함을 보여줍니다. 이를 위해 본 논문에서는 이론적 및 실험적으로 엔트로피 역학을 조사합니다. 본 논문의 유도는 정책 엔트로피의 변화가 액션 확률과 로짓의 변화 사이의 공분산에 의해 주도되며, 정책 경사 알고리즘을 사용할 때 이점에 비례함을 강조합니다. 실험 연구는 공분산 항과 엔트로피 차이의 값이 정확히 일치하여 이론적 결론을 뒷받침합니다. 또한, 공분산 항은 훈련 전반에 걸쳐 대부분 양수로 유지되어 정책 엔트로피가 단조 감소하는 이유를 더 잘 설명합니다. 엔트로피 역학의 메커니즘을 이해함으로써, 본 논문은 고공분산 토큰의 업데이트를 제한하여 엔트로피를 제어할 것을 제안합니다. 구체적으로, 본 논문은 고공분산 토큰을 각각 잘라내고 KL 페널티를 적용하는 두 가지 간단하지만 효과적인 기술인 Clip-Cov와 KL-Cov를 제안합니다. 실험 결과, 이러한 방법들이 탐색을 장려하여 정책이 엔트로피 붕괴를 벗어나고 더 나은 성능을 달성하는 데 도움이 됨을 보여줍니다.

시사점, 한계점

시사점:
RL에서 LLM을 사용한 추론의 확장성을 저해하는 정책 엔트로피 붕괴 문제에 대한 새로운 이해를 제공합니다.
엔트로피와 성능 간의 경험적 관계를 제시하여 성능 상한을 예측할 수 있게 합니다.
엔트로피 역학의 메커니즘을 이론적, 실험적으로 규명합니다.
엔트로피 붕괴를 해결하고 성능을 향상시키는 효과적인 방법인 Clip-Cov와 KL-Cov를 제안합니다.
한계점:
제안된 방법의 효과는 특정 RL 알고리즘과 문제 설정에 국한될 수 있습니다.
더욱 다양한 RL 문제와 LLM에 대한 추가적인 실험이 필요합니다.
엔트로피 관리 전략의 최적 파라미터 설정에 대한 추가적인 연구가 필요합니다.
이론적 분석이 특정 알고리즘(Policy Gradient-like algorithms)에 국한될 수 있습니다. 다른 유형의 알고리즘에는 적용이 제한될 수 있습니다.
👍