본 논문은 대규모 언어 모델(LLM)의 입력 프롬프트에 대한 신뢰도 수준의 차이를 다룹니다. 일부 프롬프트는 일관되고 의미적으로 유사한 답변을 생성하지만, 다른 프롬프트는 다양하거나 모순되는 출력을 생성합니다. 이러한 변화는 모델이 주어진 문제를 얼마나 확실하게 이해하는지에 대한 신호이며, LLM의 불확실성을 반영합니다. 기존의 GRPO는 모든 프롬프트를 동일하게 취급하지만, 본 논문에서는 모델의 지식 경계에 대한 중요한 정보를 무시하는 기존 GRPO의 한계를 해결하기 위해 SEED-GRPO를 제안합니다. SEED-GRPO는 LLM의 입력 프롬프트에 대한 불확실성을 의미 엔트로피로 측정하여 정책 업데이트의 크기를 조절합니다. 이러한 불확실성 인식 학습 메커니즘을 통해 질문의 불확실성에 따라 정책 업데이트 크기를 동적으로 조정하여 불확실성이 높은 질문에 대해서는 더 보수적인 업데이트를 수행하고, 확신이 높은 질문에 대해서는 기존의 학습 신호를 유지합니다. AIME24, AMC, MATH, Minerva, OlympiadBench 등 5가지 수학 추론 벤치마크에서 새로운 최첨단 성능을 달성하여 불확실성 인식 정책 최적화의 효과를 검증했습니다.