# Rethinking Entropy Interventions in RLVR: An Entropy Change Perspective

### 저자

Zhezheng Hao, Hong Wang, Haoyang Liu, Jian Luo, Jiarui Yu, Hande Dong, Qiang Lin, Can Wang, Jiawei Chen

### 💡 개요

대규모 언어 모델(LLM)의 추론 능력을 강화하는 강화학습 기법인 RLVR은 훈련 시 정책 엔트로피 감소라는 '엔트로피 붕괴' 문제로 인해 탐색이 제한되고 훈련 효과가 저하되는 어려움을 겪습니다. 본 연구는 엔트로피 변화에 대한 이론적, 경험적 분석을 통해 기존 방법론의 한계를 밝히고, 엔트로피 변화량을 기반으로 토큰 가중치를 적응적으로 조절하는 STEER라는 새로운 엔트로피 조절 방법을 제안합니다. STEER는 엔트로피 붕괴를 효과적으로 완화하고 기존 최신 기술을 능가하는 성능을 보여줍니다.

### 🔑 시사점 및 한계

- RLVR 훈련 중 발생하는 엔트로피 붕괴의 근본적인 원인을 네 가지 주요 요인으로 설명하는 통일된 이론적 프레임워크를 제시합니다.

- 기존의 휴리스틱한 엔트로피 개입 방식들이 엔트로피 변화를 야기하는 모든 관련 요인을 고려하지 못하는 근본적인 한계를 지적합니다.

- 제안된 STEER 방법론은 이론적 근거를 바탕으로 엔트로피 변화를 효과적으로 조절하여 RLVR 훈련의 성능을 크게 향상시킬 수 있음을 실험적으로 입증합니다.

- 제시된 이론적 분석은 다른 LLM 강화학습 응용 분야에도 확장될 수 있는 가능성을 내포합니다.

- STEER의 적응적 가중치 조절 메커니즘이 복잡한 시나리오에서 항상 최적의 성능을 보장하는지에 대한 추가적인 탐색이 필요합니다.

[PDF 보기](https://arxiv.org/pdf/2510.10150)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).
