Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

¿Es el razonamiento en cadena de pensamiento de los LLM un espejismo? Una perspectiva de distribución de datos

Created by
  • Haebom

Autor

Chengshuai Zhao, Zhen Tan, Pingchuan Ma, Dawei Li, Bohan Jiang, Yancheng Wang, Yingzhen Yang, Huan Liu

Describir

Este artículo analiza la mejora del rendimiento de los Modelos de Lenguaje Grandes (LLM) mediante la inducción de Cadena de Pensamiento (CoT) desde la perspectiva de la distribución de datos. Investigamos si la inferencia de CoT refleja sesgos inductivos estructurales aprendidos de los datos de entrenamiento, lo que permite una generación condicional que se aproxima a las rutas de inferencia observadas durante el entrenamiento. Para lograrlo, diseñamos DataAlchemy, un entorno controlado donde entrenamos LLM desde cero e investigamos sistemáticamente diversas condiciones de distribución. Analizamos la inferencia de CoT en tres dimensiones: tarea, longitud y formato. Nuestros resultados revelan que la inferencia de CoT es un fenómeno frágil que desaparece fuera de la distribución de entrenamiento, lo que pone de relieve la dificultad de lograr una inferencia verdaderamente generalizable.

Takeaways, Limitations

Takeaways: Al revelar las limitaciones de la inferencia de CoT desde la perspectiva de la distribución de datos, proporcionamos una comprensión más profunda de las capacidades de inferencia de LLM. Sugerimos que la efectividad de la inducción de CoT está fundamentalmente limitada por el grado de desajuste distribucional entre los datos de entrenamiento y las consultas de prueba. Presentamos una metodología para analizar sistemáticamente el mecanismo de inferencia de LLM utilizando un entorno controlado como DataAlchemy.
Limitations: El entorno de DataAlchemy se basa en resultados experimentales bajo condiciones específicas, por lo que se requiere más investigación para determinar su generalización a entornos reales complejos. El análisis se limita a ciertas dimensiones (tarea, duración, formato), y es posible que no se haya considerado la influencia de otros factores importantes. Se requiere más investigación para dilucidar completamente las limitaciones inherentes de la inferencia de CoT.
👍