Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo. La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro. Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.
Aprendizaje y olvido fuera de línea para razonar con modelos lingüísticos amplios
Created by
Haebom
Autor
Tianwei Ni, Allen Nie, Sapana Chaudhary, Yao Liu, Huzefa Rangwala, Rasool Fakoor
Describir
En este artículo, proponemos un enfoque novedoso para ajustar el modelo mediante el aprovechamiento de las rutas de inferencia de éxito y fracaso obtenidas de diversos métodos de búsqueda para abordar los elevados costes computacionales y los problemas de tiempo de inferencia de los métodos existentes que mejoran la capacidad de los modelos lingüísticos a gran escala para resolver problemas matemáticos y de razonamiento complejos aprovechando la búsqueda en tiempo de inferencia. Revelamos que el ajuste fino existente puede degradar la capacidad de búsqueda del modelo y demostramos que esto puede mitigarse utilizando una tasa de aprendizaje baja. Los resultados experimentales en los puntos de referencia de inferencia de Juego de 24 y Cuenta Regresiva muestran que el uso de datos generados por búsqueda en lugar de datos generados por Cadena de Pensamiento (CoT) para el ajuste fino fuera de línea mejora la tasa de éxito en aproximadamente un 23% y reduce el tiempo de inferencia en 180x en comparación con las líneas base de búsqueda en tiempo de inferencia. Además, las funciones objetivo de aprendizaje y olvido propuestas superan consistentemente el ajuste fino de aprendizaje supervisado y los métodos basados en símbolos.
Takeaways, Limitations
•
Takeaways:
◦
Presentamos un método novedoso para resolver eficazmente el alto costo computacional de la búsqueda en tiempo de inferencia y el problema del tiempo de inferencia.
◦
Mejore significativamente las tasas de éxito con respecto a las líneas de base de búsqueda de tiempo de inferencia y reduzca drásticamente el tiempo de inferencia a través del ajuste fino fuera de línea.
◦
Presentamos funciones objetivo de aprendizaje y olvido que superan el ajuste fino del aprendizaje supervisado y los métodos basados en símbolos.
•
Limitations:
◦
La mejora del rendimiento del método propuesto puede limitarse a ciertos puntos de referencia (Game-of-24 y Countdown).
◦
Se necesita una evaluación adicional del desempeño de generalización para varios tipos de problemas y modelos de lenguaje a gran escala.
◦
Se necesitan más investigaciones para determinar si el uso de una tasa de aprendizaje pequeña es óptimo y cómo el ajuste de otros hiperparámetros afecta el rendimiento.