본 논문은 대규모 언어 모델(LLM) 추론에서 장문 맥락 처리 및 생성 메커니즘에 필수적인 메모리 처리 파이프라인의 병목 현상을 분석합니다. 연구진은 메모리 처리 과정을 네 가지 단계(Prepare Memory, Compute Relevancy, Retrieval, Apply to Inference)로 통합하고, 이 과정에서 발생하는 높은 메모리 처리 오버헤드와 계산 특성의 불균일성을 발견했습니다. 이를 해결하기 위해 GPU와 FPGA의 이기종 시스템을 활용하여 각 연산에 최적화된 하드웨어로 작업을 분산시킴으로써 LLM 추론 속도와 에너지 효율성을 크게 향상시켰습니다.