Este artículo propone una arquitectura de matriz modular reconfigurable (CGRA) de consumo ultrabajo, diseñada para acelerar las operaciones de multiplicación de matrices generalizadas (GEMM) de modelos Transformer en entornos con limitaciones de energía y recursos de dispositivos de borde. La arquitectura propuesta integra una matriz de elementos de procesamiento (PE) 4x4 para computación paralela eficiente y un bloque de operación de memoria (MOB) 4x2 para operaciones optimizadas de carga/almacenamiento, reduciendo así los requisitos de ancho de banda de memoria y mejorando la reutilización de datos. Una red de interconexión de toro en malla sin conmutadores permite la comunicación directa entre los PE y los MOB, eliminando la necesidad de conmutación centralizada y minimizando el consumo de energía y la latencia. Con un diseño de matriz heterogénea y un flujo de datos eficiente, la arquitectura CGRA aborda las demandas computacionales únicas de los Transformers, proporcionando una ruta escalable para implementar modelos sofisticados de aprendizaje automático en dispositivos de borde.