본 논문은 에지 디바이스의 제한된 에너지와 자원 환경에서 트랜스포머 모델의 일반 행렬 곱셈(GEMM) 연산을 가속화하기 위해 설계된 초저전력 조립식 재구성 가능 배열(CGRA) 아키텍처를 제안한다. 제안된 아키텍처는 효율적인 병렬 계산을 위한 4x4 PE(Processing Element) 배열과 최적화된 LOAD/STORE 연산을 위한 4x2 MOB(Memory Operation Block)을 통합하여 메모리 대역폭 요구를 줄이고 데이터 재사용을 향상시킨다. 스위치리스 메시 토러스 상호 연결 네트워크는 PE와 MOB 간의 직접 통신을 가능하게 하여 중앙 집중식 스위칭의 필요성을 없애고 전력 소모와 지연 시간을 최소화한다. 이종 배열 설계와 효율적인 데이터 흐름을 통해 CGRA 아키텍처는 트랜스포머의 고유한 계산 요구를 해결하여 에지 디바이스에 정교한 머신러닝 모델을 배포할 수 있는 확장 가능한 경로를 제공한다.