Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

El nuevo cuello de botella del LLM: una perspectiva sistémica sobre la atención latente y la mezcla de expertos

Created by
  • Haebom

Autor

Sungmin Yun, Seonyong Park, Hwayong Nam, Younjoo Lee, Gunjun Lee, Kwanhee Kyung, Sangpyo Kim, Nam Sung Kim, Jongmin Kim, Hyungyo Kim, Juhwan Cho, Seungmin Baek, Jung Ho Ahn

Describir

Este artículo señala que la carga de trabajo del modelo Transformer existente se divide en las restricciones de memoria de la Atención Multicabezal (MHA) y las restricciones computacionales de la capa de avance. Esta división ha impulsado la investigación en hardware especializado para aliviar el cuello de botella de la MHA. Sin embargo, cambios arquitectónicos recientes, como la Atención Latente Multicabezal (MLA) y la Mezcla de Expertos (MoE), cuestionan la necesidad de hardware de atención especializado. El artículo muestra que la intensidad computacional de MLA es dos órdenes de magnitud mayor que la de MHA, lo que la hace adecuada para aceleradores modernos como las GPU, y que MoE puede utilizarse para distribuir expertos en un conjunto de aceleradores y ajustar la intensidad computacional por lotes para que coincida con las capas densas. Por lo tanto, sostenemos que el desafío clave para el Transformer de próxima generación no es la aceleración de una sola capa con restricciones de memoria, sino el diseño de un sistema equilibrado con suficiente rendimiento computacional, capacidad de memoria, ancho de banda de memoria e interconexión de alto ancho de banda para gestionar los diversos requisitos de los modelos a gran escala.

Takeaways, Limitations

Takeaways:
Las arquitecturas MLA y MoE alivian el cuello de botella de memoria del MHA tradicional, reduciendo la necesidad de hardware de atención especializado.
El enfoque del desarrollo del Transformer de próxima generación sugiere que debería cambiar hacia un diseño de sistema equilibrado, que incluya suficiente rendimiento computacional, capacidad de memoria, ancho de banda de memoria e interconexión de alto ancho de banda.
Presentamos direcciones de diseño de hardware y software para la implementación eficiente de MLA y MoE.
Limitations:
Se necesitan más investigaciones para determinar si MLA y MoE son aplicables a todos los tipos de modelos de transformadores.
No se hacen recomendaciones específicas para el diseño de un sistema equilibrado que satisfaga los diversos requisitos de los modelos a gran escala.
No se presentan resultados de la evaluación del rendimiento en plataformas de hardware reales.
👍