En este artículo, presentamos un nuevo paradigma de ajuste fino, la retroalimentación simbólica mediante aprendizaje de refuerzo (RLSF), que aprovecha la retroalimentación detallada de herramientas de razonamiento simbólico (p. ej., probadores) para abordar problemas de inferencia específica de dominio y consistencia lógica en modelos de lenguaje a gran escala (LLM). RLSF utiliza certificados de tamaño polinomial (p. ej., pruebas) generados por herramientas simbólicas para identificar y corregir errores en la salida del modelo, proporcionando una guía a nivel de token sin un sistema de inferencia diferenciable. Esto cierra la brecha entre la inferencia simbólica y el ajuste fino de LLM, permitiendo una alineación precisa con las restricciones específicas de dominio y abordando las limitaciones clave de las señales de recompensa convencionales. Los resultados experimentales demuestran que el ajuste fino de LLM basado en RLSF supera a los enfoques existentes en cinco aplicaciones, incluyendo la síntesis de programas, tres tareas químicas y la resolución de 24 juegos, lo que demuestra que los LLM relativamente pequeños superan a los modelos monopolísticos mucho más grandes.