본 논문에서는 외부 보상이나 정답 없이 모델의 내부 분포 엔트로피를 고유 보상으로 활용하는 완전 비지도 강화 학습 방법인 RENT(Reinforcement Learning via Entropy Minimization)를 제안합니다. RENT는 모델이 생성한 답변에 대한 높은 신뢰도를 산출하는 사고 과정을 강화하여 추론 능력을 향상시킵니다. GSM8K, MATH500, AMC, AIME, GPQA 등 다양한 추론 벤치마크와 Qwen 및 Mistral 계열의 다양한 크기의 모델을 사용하여 실험을 진행하였습니다. 외부 감독이 제한적이거나 없는 광범위한 분야에 적용 가능한 일반적인 비지도 학습 방법입니다.