Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

La toxicidad de la cabeza de inducción explica mecanísticamente la maldición de la repetición en modelos lingüísticos grandes

Created by
  • Haebom

Autor

Shuxun Wang, Qingyu Yin, Chak Tou Leong, Qiang Zhang, Linyi Yang

Describir

Este artículo aborda el fenómeno de la "maldición de la repetición", que consiste en la generación de tokens repetidos o secuencias cíclicas en modelos de lenguaje a gran escala (LLM). Este fenómeno se ha observado ampliamente en estudios previos, pero su mecanismo subyacente no se conoce bien. Este artículo investiga el papel de las "cabezas de inducción", un tipo específico de cabeza de atención conocida por su capacidad de aprender en contexto, en la causa de este comportamiento repetitivo. En particular, nos centramos en la toxicidad de las cabezas de inducción, definiéndola como la tendencia de una cabeza a dominar el logit de salida de un modelo durante la repetición y a excluir a otras cabezas de atención de la participación en el proceso de generación. Los resultados del estudio proporcionan información importante para el diseño y el entrenamiento de LLM, e identifican a las cabezas de inducción como la principal causa de la maldición de la repetición, sugiriendo una explicación mecanicista y una estrategia de mitigación para este fenómeno. Además, proponemos una técnica de regulación de las cabezas de atención para reducir el predominio de las cabezas de inducción durante la generación y generar resultados más diversos y consistentes.

Takeaways, Limitations

Takeaways:
Proporciona una explicación mecanicista del fenómeno de la maldición repetida del LLM (aclara el papel de la cabeza inductiva)
Propuesta de una técnica de regulación de la atención para aliviar la maldición de la recurrencia
Una nueva dirección para mejorar el diseño y la formación LLM
Limitations:
Se necesitan experimentos y verificaciones adicionales para determinar la eficacia práctica y el rendimiento de generalización de la técnica de regulación de la atención de la cabeza propuesta.
Se necesitan más investigaciones sobre el fenómeno de las maldiciones recurrentes debido a factores distintos a la toxicidad de la cabeza inductiva.
Necesidad de examinar la generalización a varias arquitecturas LLM y datos de entrenamiento
👍