본 논문은 Group Relative Policy Optimization (GRPO)와 같은 강화학습 알고리즘을 사용하여 대규모 언어 모델(LLM)의 추론 능력을 향상시키는 연구에 대해 다룹니다. 기존 GRPO는 시퀀스 내 모든 토큰에 동일한 보상을 적용하는 조잡한 크레딧 할당으로 장기 추론 작업에서 한계를 보입니다. 이를 해결하기 위해 동적 엔트로피 가중치(Dynamic Entropy Weighting) 기법을 제시합니다. 정답에서 높은 엔트로피를 가진 토큰이 더 높은 성능을 달성하도록 정책을 유도한다는 핵심 아이디어를 바탕으로, 두 가지 방법을 통해 보다 세분화된 보상 신호를 생성합니다. 첫째, **Group Token Policy Optimization (GTPO)**는 각 토큰에 엔트로피 가중치 보상을 할당하여 세분화된 크레딧 할당을 수행합니다. 둘째, **Sequence-Level Group Relative Policy Optimization (GRPO-S)**는 각 시퀀스에 해당 시퀀스의 평균 토큰 엔트로피 기반의 엔트로피 가중치 보상을 할당합니다. 실험 결과, 제안된 방법이 강력한 DAPO 기준 모델보다 성능이 크게 향상됨을 보여주며, 엔트로피 가중치 메커니즘이 성능 향상의 주요 원인임을 확인합니다.