대규모 언어 모델(LLM) 강화 학습에서 그룹 기반 정책 최적화 프레임워크(GRPO, GSPO 등)가 안정적인 파인튜닝에 사용되지만, 최적화 세분성과 훈련 안정성 간의 트레이드오프가 존재합니다. GSPO는 시퀀스 수준 최적화를 통해 견고성을 높이지만, 시퀀스를 획일적으로 처리하여 효율성이 떨어지고, 유효한 훈련 샘플을 무차별적으로 폐기하며(경사 활용 부족), 중요한 추론 단계의 기여도를 제대로 반영하지 못합니다. 본 연구에서는 ESPO(Entropy Importance Sampling Policy Optimization)를 제안하여 미세한 제어와 훈련 안정성을 동시에 확보합니다. ESPO는 예측 엔트로피를 기반으로 시퀀스를 그룹으로 분할하여 (1) 엔트로피 기반 중요도 샘플링을 통해 시퀀스 내 이질성을 포착하고, (2) 엔트로피 적응형 클리핑을 통해 모델 불확실성에 따라 신뢰 영역을 동적으로 할당합니다. 수학적 추론 벤치마크 실험 결과, ESPO는 수렴 속도를 높일 뿐만 아니라, 특히 HMMT 벤치마크의 정확도를 4.4%에서 13.13%로 향상시키는 등, 최첨단 성능을 달성했습니다.