En este artículo, proponemos RENT (Aprendizaje por Refuerzo mediante Minimización de Entropía), un método de aprendizaje por refuerzo no supervisado que utiliza la entropía de un modelo como recompensa intrínseca, sin recompensas externas ni respuestas correctas. RENT mejora la capacidad de inferencia al reforzar el proceso de pensamiento altamente fiable de las respuestas generadas por el modelo. Demostramos una mejora del rendimiento mediante experimentos con diversos benchmarks de inferencia, como GSM8K, MATH500, AMC, AIME y GPQA, y modelos de diversos tamaños de las series Qwen, Mistral y Llama. Se trata de un método general de aprendizaje no supervisado que puede aplicarse a una amplia gama de campos donde la supervisión externa es imposible.