Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

RLSF: Ajuste de los LLM mediante retroalimentación simbólica

Created by
  • Haebom

Autor

Piyush Jha, Prithwish Jana, Pranavkrishna Suresh, Arnav Arora, Vijay Ganesh

Describir

En este artículo, presentamos un nuevo paradigma de ajuste fino, la retroalimentación simbólica mediante aprendizaje de refuerzo (RLSF), que aprovecha la retroalimentación detallada de herramientas de razonamiento simbólico (p. ej., probadores) para abordar problemas de inferencia específica de dominio y consistencia lógica en modelos de lenguaje a gran escala (LLM). RLSF utiliza certificados de tamaño polinomial (p. ej., pruebas) generados por herramientas simbólicas para identificar y corregir errores en la salida del modelo, proporcionando una guía a nivel de token sin un sistema de inferencia diferenciable. Esto cierra la brecha entre la inferencia simbólica y el ajuste fino de LLM, permitiendo una alineación precisa con las restricciones específicas de dominio y abordando las limitaciones clave de las señales de recompensa convencionales. Los resultados experimentales demuestran que el ajuste fino de LLM basado en RLSF supera a los enfoques existentes en cinco aplicaciones, incluyendo la síntesis de programas, tres tareas químicas y la resolución de 24 juegos, lo que demuestra que los LLM relativamente pequeños superan a los modelos monopolísticos mucho más grandes.

Takeaways, Limitations

Takeaways:
Se presenta un nuevo paradigma de ajuste fino de LLM (RLSF) que utiliza herramientas de razonamiento simbólico
Supera las limitaciones de las señales de recompensa existentes y permite una alineación precisa con las restricciones específicas del dominio.
Un LLM relativamente pequeño logra un rendimiento que supera a los modelos propietarios grandes
Se han demostrado mejoras de rendimiento en una variedad de aplicaciones (síntesis de programas, operaciones químicas, resolución de juegos, etc.)
Limitations:
La aplicabilidad de RLSF puede depender de la disponibilidad de herramientas de razonamiento simbólico.
La necesidad de desarrollo e integración de herramientas de inferencia simbólica específicas del dominio
Se necesita una evaluación adicional del desempeño de generalización en diferentes dominios y tareas.
👍