Dans cet article, nous proposons RENT (Reinforcement Learning via Entropy Minimization), une méthode d'apprentissage par renforcement non supervisé qui utilise l'entropie d'un modèle comme récompense intrinsèque, sans récompenses externes ni réponses correctes. RENT améliore la capacité d'inférence en renforçant le processus de réflexion hautement fiable des réponses générées par le modèle. Nous démontrons l'amélioration des performances par des expériences sur divers benchmarks d'inférence tels que GSM8K, MATH500, AMC, AIME et GPQA, ainsi que sur des modèles de tailles diverses des séries Qwen, Mistral et Llama. Il s'agit d'une méthode d'apprentissage non supervisé générale qui peut être appliquée à un large éventail de domaines où la supervision externe est impossible.