[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Un CGRA de potencia ultrabaja para acelerar transformadores en el borde

Created by
  • Haebom

Autor

Rohit Prasad

Describir

Este artículo propone una arquitectura de matriz modular reconfigurable (CGRA) de consumo ultrabajo, diseñada para acelerar las operaciones de multiplicación de matrices generalizadas (GEMM) de modelos Transformer en entornos con limitaciones de energía y recursos de dispositivos de borde. La arquitectura propuesta integra una matriz de elementos de procesamiento (PE) 4x4 para computación paralela eficiente y un bloque de operación de memoria (MOB) 4x2 para operaciones optimizadas de carga/almacenamiento, reduciendo así los requisitos de ancho de banda de memoria y mejorando la reutilización de datos. Una red de interconexión de toro en malla sin conmutadores permite la comunicación directa entre los PE y los MOB, eliminando la necesidad de conmutación centralizada y minimizando el consumo de energía y la latencia. Con un diseño de matriz heterogénea y un flujo de datos eficiente, la arquitectura CGRA aborda las demandas computacionales únicas de los Transformers, proporcionando una ruta escalable para implementar modelos sofisticados de aprendizaje automático en dispositivos de borde.

Takeaways, Limitations

Takeaways:
Se presenta una nueva arquitectura CGRA para la ejecución eficiente de modelos de transformadores en dispositivos de borde.
Presentamos la escalabilidad de las aplicaciones de IA de borde a través de un consumo de energía ultrabajo y un rendimiento mejorado.
Mayor eficiencia energética mediante la optimización del ancho de banda de memoria y la reutilización de datos.
Reduzca el consumo de energía y la latencia con redes sin conmutación.
Limitations:
Ausencia de resultados reales de implementación y evaluación del desempeño de la arquitectura propuesta.
Se necesita más investigación sobre la aplicabilidad y generalización a varios modelos de transformadores y dispositivos de borde.
Se necesita más investigación sobre la escalabilidad y el tamaño óptimo de la matriz PE 4x4 y el tamaño MOB 4x2.
Ausencia de análisis de comparación de rendimiento con otras arquitecturas CGRA o aceleradores existentes.
👍