본 논문은 Group Relative Policy Optimization (GRPO)와 같은 강화학습 알고리즘을 사용하여 대규모 언어 모델(LLM)의 추론 능력을 향상시키는 연구에 대해 다룹니다. 기존 GRPO는 모든 토큰에 동일한 보상을 적용하는 조잡한 크레딧 할당으로 장쇄 추론 작업에서 한계를 보입니다. 본 논문에서는 **동적 엔트로피 가중치(Dynamic Entropy Weighting)**를 제안하여 이 문제를 해결합니다. 정답에서 높은 엔트로피를 가진 토큰이 더 높은 성능 상한선으로 정책을 안내할 수 있다는 아이디어를 바탕으로, 두 가지 방법을 통해 보다 세분화된 보상 신호를 생성합니다. 첫째, **그룹 토큰 정책 최적화(GTPO)**는 각 토큰에 엔트로피 가중치가 적용된 보상을 할당하여 세분화된 크레딧 할당을 수행합니다. 둘째, **시퀀스 수준 그룹 상대 정책 최적화(GRPO-S)**는 각 시퀀스에 해당 시퀀스의 평균 토큰 엔트로피를 기반으로 엔트로피 가중치가 적용된 보상을 할당합니다. 실험 결과, 제안된 방법이 강력한 DAPO 기준 모델보다 성능이 훨씬 뛰어나며, 엔트로피 가중치 메커니즘이 성능 향상의 주요 원동력임을 확인했습니다. 이는 모델의 심층 추론 향상을 위한 더 나은 방법을 제시합니다.