강화 학습 (RLVR)을 통해 대규모 언어 모델 (LLM)의 추론 능력을 향상시키는 방법이 널리 사용되고 있지만, RLVR 훈련 중 LLM의 엔트로피가 감소하여 조기 수렴 및 성능 저하를 야기한다는 문제점이 있다. 본 논문에서는 RLVR로 훈련된 LLM의 엔트로피 역학을 광범위하게 연구하고, 모델 엔트로피가 다양한 벤치마크에서 응답 다양성, 보정, 성능과 어떻게 연관되는지 분석한다. 또한, 오프-정책 업데이트 수, 훈련 데이터의 다양성, 최적화 목표의 클리핑 임계값이 RLVR로 훈련된 LLM의 엔트로피에 중요한 영향을 미친다는 것을 밝힌다. 긍정적 어드밴티지를 가진 토큰이 엔트로피 감소의 주요 원인이며, 훈련 중 긍정적 및 부정적 어드밴티지를 가진 토큰의 상대적 손실 가중치를 조정하여 모델 엔트로피를 효과적으로 조절할 수 있음을 이론적 및 경험적으로 입증한다.