Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

SampleAttention: Aceleración casi sin pérdidas de la inferencia LLM de contexto largo con atención dispersa estructurada adaptativa

Created by
  • Haebom

Autor

Qianchao Zhu, Jiangfei Duan, Chang Chen, Siran Liu, Guanyu Feng, Xin Lv, Xiao Chuanfu, Dahua Lin, Chao Yang

Describir

Este artículo presenta un enfoque novedoso para abordar los largos retrasos en el tiempo hasta el primer token (TTFT) causados ​​por la complejidad cuadrática de la atención básica en modelos de lenguaje a gran escala (LLM) que admiten ventanas de contexto muy extensas. Si bien los enfoques existentes requieren preentrenamiento o ajuste adicional y a menudo sacrifican la precisión del modelo, este artículo presenta un enfoque de atención dispersa casi sin pérdidas basado en evidencia teórica y experimental. Destacamos la importancia de capturar patrones dispersos específicos de la cabeza de forma dinámica y rentable en tiempo de ejecución. Para lograrlo, proponemos SampleAttention, un enfoque de atención dispersa adaptativo, estructurado y casi sin pérdidas. SampleAttention aprovecha los patrones dispersos significativos observados para centrar la atención en un porcentaje fijo de tokens adyacentes y capturar patrones de ventana local. Además, emplea un enfoque de filtrado clave-valor basado en consultas de dos etapas que selecciona adaptativamente un conjunto clave-valor mínimo a bajo coste para capturar patrones de franja de columna. Los resultados de una evaluación exhaustiva muestran que SampleAttention puede reemplazar la atención tradicional en el LLM casi sin pérdida de precisión y reducir el TTFT hasta 2,42 veces en comparación con FlashAttention.

Takeaways, Limitations

Takeaways:
Presentamos una nueva técnica de atención dispersa que aborda eficazmente el problema de retardo TTFT de LLM con ventanas de contexto largas.
Aplicable a LLM existentes sin necesidad de capacitación previa adicional ni ajustes.
Reduce significativamente el TTFT en comparación con FlashAttention prácticamente sin pérdida de precisión.
Presentamos un método eficiente para capturar dinámicamente patrones dispersos por cabeza en tiempo de ejecución.
Limitations:
Se necesita más investigación para determinar qué tan bien se generaliza el rendimiento de SampleAttention en diferentes arquitecturas LLM y tamaños de ventanas de contexto.
Se necesita un análisis comparativo más completo con otras técnicas avanzadas de atención dispersa.
Falta de evaluación del rendimiento para ventanas de contexto extremadamente largas.
👍