Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

SystolicAttention: fusión de FlashAttention en una única matriz sistólica

Created by
  • Haebom

Autor

Jiawei Lin, Guokai Chen, Yuanlong Li, Thomas Bourgeat

Describir

Este artículo propone Flash Systolic Array (FSA), una novedosa arquitectura basada en matrices sistólicas para la aceleración eficiente de modelos Transformer basados en el algoritmo FlashAttention. Los aceleradores existentes basados en matrices sistólicas presentan baja utilización y degradación del rendimiento debido a la frecuente ejecución intercalada de las operaciones de multiplicación de matrices y softmax de FlashAttention. FSA implementa un novedoso algoritmo de programación llamado SystolicAttention para ejecutar completamente las operaciones de FlashAttention dentro de una única matriz sistólica. Esto permite una superposición precisa de las operaciones de multiplicación de matrices y softmax sin necesidad de unidades vectoriales externas, lo que mejora significativamente la utilización de la matriz. Implementado como RTL sintetizable, FSA alcanza una utilización de FLOP/s de atención 1,77 y 4,83 veces superior que AWS Neuron v2 y Google TPUv5e, respectivamente, con una sobrecarga de área de tan solo el 12 %.

Takeaways, Limitations

Takeaways:
Al permitir la ejecución completa del algoritmo FlashAttention dentro de una única matriz sistólica, abordamos los problemas de degradación del rendimiento de las arquitecturas existentes.
Se logró un procesamiento paralelo eficiente de la multiplicación de matrices y operaciones softmax y una alta utilización de matrices a través del algoritmo SystolicAttention.
Muestra un rendimiento significativamente mayor que AWS Neuron v2 y Google TPUv5e, lo que sugiere la posibilidad de diseñar un acelerador de hardware competitivo.
Demuestra un diseño económico con una mejora de alto rendimiento y una baja sobrecarga de área.
Limitations:
Las mejoras de rendimiento de la arquitectura FSA presentadas en este documento se presentan a través de la comparación con plataformas de hardware específicas (AWS Neuron v2, Google TPUv5e), por lo que el rendimiento en otras plataformas requiere una verificación adicional.
La eficacia de FSA depende en gran medida del rendimiento del algoritmo SystolicAttention, y su rendimiento de generalización en datos de entrada de diversos tamaños y formas requiere más investigación.
Falta un análisis de la eficiencia energética. Si bien se ha logrado un alto rendimiento, es posible que el consumo de energía haya aumentado.
👍