[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

SystolicAttention: fusión de FlashAttention en una única matriz sistólica

Created by
  • Haebom

Autor

Jiawei Lin, Guokai Chen, Yuanlong Li, Thomas Bourgeat

Describir

En este artículo, proponemos una novedosa arquitectura basada en matrices sistólicas, Flash Systolic Array (FSA), para la aceleración eficiente de modelos Transformer mediante el algoritmo FlashAttention. Los aceleradores existentes basados en matrices sistólicas presentan una baja utilización debido a las multiplicaciones no consecutivas de matrices pequeñas y las operaciones softmax de FlashAttention. FSA está diseñado para realizar todas las operaciones de FlashAttention dentro de una única matriz sistólica mediante un novedoso algoritmo de programación llamado SystolicAttention, eliminando así el intercambio de datos con unidades vectoriales externas y mejorando la utilización. Implementado como RTL sintetizable, FSA alcanza una utilización de FLOP/s de atención 1,77 y 4,83 veces superior que AWS NeuronCore-v2 y Google TPUv5e, respectivamente, con una sobrecarga de área de tan solo un 10 %.

Takeaways, Limitations

Takeaways:
Abordamos el problema de baja utilización de los aceleradores basados en matrices sistólicas existentes al permitir que todo el algoritmo FlashAttention se ejecute dentro de una única matriz sistólica.
Mejoramos significativamente la utilización de la matriz sistólica mientras mantenemos la estabilidad numérica a través del algoritmo SystolicAttention.
Logró un rendimiento significativamente mayor que los aceleradores comerciales existentes.
Demostramos que es un diseño eficiente con baja sobrecarga de área.
Limitations:
Los resultados presentados aquí se basan en comparaciones con aceleradores comerciales específicos, y su generalización a otras arquitecturas o algoritmos requiere más estudios.
No se presentó ningún análisis de la eficiencia energética de la FSA.
Faltan evaluaciones de rendimiento para modelos de transformadores de varios tamaños.
Se necesita más investigación sobre la escalabilidad general del algoritmo SystolicAttention y su aplicabilidad a otros mecanismos de atención.
👍