Este artículo propone NOVER (Aprendizaje por Refuerzo sin Verificador), un novedoso marco para el aprendizaje por refuerzo sin verificadores externos. Los enfoques convencionales de aprendizaje por incentivos se basan en verificadores externos, lo que limita su aplicabilidad en ámbitos como las matemáticas y la programación, donde los verificadores no están fácilmente disponibles. Sin embargo, NOVER permite el aprendizaje por incentivos utilizando únicamente datos estándar de ajuste fino del aprendizaje supervisado. Aplicable a diversas tareas de conversión de texto a texto, NOVER supera en un 7,7 % a modelos de tamaño similar derivados de modelos de inferencia a gran escala como DeepSeek R1 671B. Además, ofrece nuevas posibilidades para la optimización de modelos lingüísticos a gran escala, como el aprendizaje por incentivos inverso.