Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Exploración de la robustez de los modelos lingüísticos para la respuesta a preguntas tabulares mediante el análisis de la atención

Created by
  • Haebom

Autor

Kushal Raj Bhandari, Sixue Xing, Soham Dan, Jianxi Gao

Describir

Este artículo se basa en el hallazgo de que los modelos lingüísticos a gran escala (LLM), que han demostrado un rendimiento excepcional en diversas tareas de comprensión de textos no estructurados, también pueden realizar tareas de comprensión tabular (estructurada) sin necesidad de entrenamiento especial. Probamos los LLM en diversos dominios, incluyendo WTQ basado en Wikipedia, TAT-QA financiero y SCITAB científico, bajo diversas aumentaciones y perturbaciones. Investigamos los efectos del aprendizaje en contexto (ICL), el tamaño del modelo, el ajuste directivo y el sesgo de dominio en la robustez de la respuesta a preguntas tabular (TQA). Si bien el ajuste directivo y los LLM más grandes y modernos ofrecen un rendimiento de TQA más sólido y robusto, persisten problemas de contaminación y fiabilidad de los datos, especialmente en WTQ. Un análisis exhaustivo de la atención reveló una fuerte correlación entre los cambios en la distribución de la atención debidos a perturbaciones y la degradación del rendimiento, con un pico de sensibilidad en las capas intermedias del modelo. Esto resalta la necesidad de desarrollar mecanismos de autoatención con conciencia estructural y técnicas de procesamiento adaptativas al dominio para mejorar la transparencia, la generalización y la fiabilidad real de los LLM para datos tabulares.

Takeaways, Limitations

Takeaways:
El ajuste de directivas y los LLM más grandes y recientes contribuyen a mejorar el rendimiento de las respuestas a preguntas tabulares (TQA) y a aumentar la solidez.
Revelamos una fuerte correlación entre los cambios en la distribución de la atención debido a perturbaciones y la degradación del rendimiento, con la mayor sensibilidad en las capas intermedias del modelo.
Se presenta la necesidad de desarrollar mecanismos de autoatención conscientes de la estructura y técnicas de procesamiento adaptativas al dominio.
Limitations:
Todavía existen problemas de contaminación y confiabilidad de datos en algunos conjuntos de datos, incluido WTQ.
Se plantea la necesidad de mejorar la confiabilidad del LLM a través de metodologías interpretables más avanzadas.
👍