Cet article propose une architecture de réseau modulaire reconfigurable (CGRA) ultra-basse consommation conçue pour accélérer les opérations de multiplication matricielle généralisée (GEMM) des modèles Transformer dans les environnements à ressources et énergie limitées des périphériques. L'architecture proposée intègre un réseau d'éléments de traitement (PE) 4x4 pour un calcul parallèle efficace et un bloc d'opérations mémoire (MOB) 4x2 pour des opérations de chargement/stockage optimisées, réduisant ainsi les besoins en bande passante mémoire et améliorant la réutilisation des données. Un réseau d'interconnexion torique maillé sans commutateur permet une communication directe entre les PE et les MOB, éliminant ainsi le besoin de commutation centralisée et minimisant la consommation d'énergie et la latence. Grâce à une conception de réseau hétérogène et à un flux de données efficace, l'architecture CGRA répond aux exigences de calcul uniques des Transformers, offrant une solution évolutive pour déployer des modèles d'apprentissage automatique sophistiqués sur les périphériques.