Recuperando el valor del aprendizaje por refuerzo: Mejor escalabilidad en tiempo de prueba mediante la unificación de los razonadores LLM con los verificadores.