Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Razonamiento lógico con modelos de recompensa por resultados para escalar el tiempo de prueba

Created by
  • Haebom

Autor

Ramya Keerthy Thatikonda, Wray Buntine, Ehsan Shareghi

Describir

Este artículo presenta un enfoque novedoso para mejorar la capacidad de razonamiento deductivo de los modelos de lenguaje a gran escala (LLM). Basándonos en investigaciones previas que combinan la extensión del tiempo de prueba y los modelos de compensación de resultados o procesos, proponemos modelos de compensación de resultados (ORM) especializados en razonamiento deductivo. Para entrenar los ORM, generamos datos mediante Cadena de Pensamiento (CoT) utilizando muestras individuales y múltiples, y proponemos una novedosa "técnica de generación de eco" que aprovecha la propensión a errores de los LLM para generar datos de entrenamiento adicionales. Esta técnica genera datos de entrenamiento con una mayor variedad de tipos de error que los métodos CoT convencionales. Los resultados experimentales muestran que los ORM entrenados con CoT y datos aumentados con eco mejoran el rendimiento de cuatro LLM diferentes en los conjuntos de datos FOLIO, JustLogic y ProverQA.

Takeaways, Limitations

Takeaways:
Presentamos nuevos modelos de recompensa de resultados (ORM) y técnicas de entrenamiento para mejorar el desempeño de LLM en el razonamiento deductivo.
Superar las limitaciones de los métodos CoT existentes y generar datos de entrenamiento que contengan varios tipos de errores a través de técnicas de generación de eco.
Verificación experimental de las mejoras de rendimiento de varios LLM en los conjuntos de datos FOLIO, JustLogic y ProverQA.
Limitations:
Se necesitan más investigaciones sobre la generalización de las técnicas de generación de eco y su aplicabilidad a otros tipos de problemas de inferencia.
Existe la posibilidad de que las mejoras de rendimiento de los ORM propuestos se limiten a conjuntos de datos o LLM específicos.
Se necesitan técnicas adicionales de aumento de datos para abordar de manera integral varios tipos de errores.
👍