본 논문은 외부 보상이나 정답 없이 모델의 엔트로피를 내재적 보상으로 활용하는 비지도 강화학습 방법인 RENT(Reinforcement Learning via Entropy Minimization)를 제안합니다. RENT는 모델이 생성한 답변에 대한 신뢰도가 높은 사고 과정을 강화함으로써 추론 능력을 향상시킵니다. GSM8K, MATH500, AMC, AIME, GPQA 등 다양한 추론 벤치마크와 Qwen 및 Mistral 계열의 다양한 크기의 모델을 사용한 실험을 통해 성능 향상을 보였습니다. 외부 감독이 불가능한 광범위한 영역에 적용 가능한 일반적인 비지도 학습 방법입니다.