Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Una encuesta sobre la extensión del contexto del transformador: enfoques y evaluación

Created by
  • Haebom

Autor

Yijun Liu, Jinzheng Yu, Yang Xu, Zhongyang Li, Qingfu Zhu

Describir

Este artículo aborda el procesamiento de textos extensos de los modelos de lenguaje a gran escala (LLM) basados ​​en Transformers. Los LLM presentan un buen rendimiento en tareas con textos cortos, pero su rendimiento se deteriora en contextos de texto extenso. Para abordar esta cuestión, revisamos sistemáticamente estudios recientes y proponemos un esquema de clasificación que los categoriza en cuatro tipos: codificación posicional, compresión de contexto, aumento de la recuperación y patrones de atención. Además, organizamos datos, tareas y métricas relevantes con base en parámetros de referencia existentes para contextos de texto extenso, nos centramos en la evaluación de este contexto, resumimos problemas pendientes y ofrecemos perspectivas sobre futuras líneas de desarrollo.

Takeaways, Limitations

Takeaways:
Proporciona una revisión sistemática y clasificación de las tareas de formato largo de LLM
Introducción y categorización de diversos enfoques para el procesamiento del contexto de texto largo (codificación posicional, compresión de contexto, aumento de búsqueda, patrones de atención)
Organizar datos, tareas y métricas relevantes para la evaluación contextual a largo plazo
Sugerir futuras direcciones de investigación
Limitations:
Este artículo se centra en el estudio y clasificación de estudios existentes y no presenta una nueva metodología.
Es posible que el esquema de clasificación propuesto no cubra exhaustivamente todos los enfoques de procesamiento de formato largo.
Ausencia de una discusión clara sobre la definición precisa y el alcance del procesamiento del contexto de formato largo.
👍