Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Diagnóstico de la memorización en el razonamiento en cadena, una ficha a la vez

Created by
  • Haebom

Autor

Huihan Li, You Chen, Siyuan Wang, Yixin He, Ninareh Mehrabi, Rahul Gupta, Xiang Ren

Describir

Este artículo aborda el fenómeno donde los modelos de lenguaje a gran escala (LLMs) se desempeñan bien en los puntos de referencia de inferencia, pero a menudo fallan incluso cuando la entrada se altera ligeramente. Específicamente, destacamos que los patrones de memoria defectuosos en la inferencia de Cadena de Pensamiento (CoT) pueden conducir a errores intermedios, resultando en respuestas finales incorrectas. Para abordar esto, presentamos STIM, un marco novedoso. STIM se centra en identificar la fuente de memoria asignando cada token en el proceso de inferencia a una de varias fuentes de memoria (local, de rango medio o de largo alcance) con base en co-ocurrencias estadísticas en el corpus de preentrenamiento. El análisis a nivel de token en varias tareas y entornos distribucionales revela que los modelos dependen más de la memoria en tareas complejas o de cola larga, siendo la memoria local la principal fuente de errores (hasta el 67% de tokens incorrectos). También demostramos que las puntuaciones de memoria de STIM pueden usarse para predecir tokens incorrectos en pasos de inferencia erróneos. STIM es una herramienta poderosa para diagnosticar y mejorar la inferencia de modelos y puede generalizarse a otras tareas de generación estructuradas paso a paso.

Takeaways, Limitations

Takeaways:
Presentamos un nuevo marco (STIM) para analizar las causas de errores de inferencia en LLM a nivel de token.
Cuando el LLM es complejo o raro, depende más de la memoria, lo que revela que la memoria local es la principal fuente de errores.
Usando STIM, se pueden predecir errores en pasos de inferencia incorrectos.
También se aplica a otras tareas de creación estructuradas paso a paso.
Limitations:
La evaluación del desempeño de STIM puede limitarse a puntos de referencia y conjuntos de datos específicos.
Tal vez se necesiten más investigaciones sobre la definición y medición de la memoria.
Es posible que no todos los tipos de errores de inferencia puedan capturarse perfectamente.
👍