본 논문은 대규모 언어 모델(LLM)의 효율적인 구현을 위한 최적화 방안으로, 저전력 에지 디바이스와 같은 제한된 메모리 용량 환경에서의 성능 향상에 초점을 맞추고 있습니다. 기존의 GEMM 기반 LLM 구현은 대용량 중간 토큰의 반복적인 저장 및 불러오기로 인해 높은 지연 시간을 초래하는데, 본 논문에서 제안하는 MEADOW 프레임워크는 새로운 토큰 병렬 헤드 순차적(TPHS) 데이터 흐름과 가중치 압축 기법을 통해 이러한 문제를 해결합니다. TPHS 데이터 흐름은 오프칩 메모리 접근을 줄이고, 가중치 압축은 큰 가중치 행렬을 고유 요소로 분해하여 가중치 불러오기 지연 시간을 단축합니다. Xilinx ZCU102 FPGA 플랫폼에서 실험한 결과, MEADOW는 기존 GEMM 기반 LLM 구현에 비해 디코딩 및 프리필 지연 시간을 각각 1.5배 및 2.5배 줄이고, 종단 간 지연 시간을 40% 이상 개선했습니다.