본 논문은 그룹 상대 정책 최적화(GRPO)와 같은 강화 학습 알고리즘을 사용하여 대규모 언어 모델(LLM)의 추론 능력을 향상시키는 연구에 대해 다룹니다. 기존 GRPO는 시퀀스 내 모든 토큰에 균일한 보상을 적용하는 조잡한 크레딧 할당으로 장쇄 추론 과제에서 한계를 보입니다. 이 논문은 **동적 엔트로피 가중치(Dynamic Entropy Weighting)**를 제시하여 이 문제를 해결합니다. 핵심 아이디어는 정답에서 높은 엔트로피를 가진 토큰이 정책을 더 높은 성능 수준으로 안내할 수 있다는 것입니다. 이를 통해 두 가지 방법, 즉 **그룹 토큰 정책 최적화(GTPO)**와 **시퀀스 수준 그룹 상대 정책 최적화(GRPO-S)**를 사용하여 보다 정밀한 정책 업데이트를 위한 세분화된 보상 신호를 생성합니다. GTPO는 각 토큰에 엔트로피 가중 보상을 할당하고, GRPO-S는 각 시퀀스에 평균 토큰 엔트로피 기반의 엔트로피 가중 보상을 할당합니다. 실험 결과, 제안된 방법들이 강력한 DAPO 기준 모델을 상당히 능가함을 보여주며, 엔트로피 가중 메커니즘이 성능 향상의 주요 원동력임을 확인합니다.