본 논문은 대규모 언어 모델(LLM) 추론을 위해 CPU를 활용하기 위한 새로운 KV 캐시 할당 메커니즘인 Balancing Memory and Compute (BMC)를 제안합니다. BMC는 매 r번의 반복마다 r개의 중복 행을 가진 KV 텐서를 할당하여 복사 오버헤드 없이 제자리 업데이트를 가능하게 하며, 동시에 Speculative Decoding(SD)을 위한 여분의 계산을 활용합니다. BMC는 다양한 r 값에 대한 설계 지점을 제공하며, 성능을 분석하기 위한 간단한 분석 모델을 제시합니다. BMC는 HuggingFace baseline 대비 최대 3.2배의 처리량 가속을 달성하며, SD와 함께 사용 시 추가적인 속도 향상을 보입니다. 또한, 최첨단 추론 서버 vLLM 및 DeepSpeed보다 각각 최대 1.36배 및 2.29배의 처리량 가속을 달성합니다. BMC는 CPU 및 GPU 환경 모두에서 효과적으로 작동합니다.
시사점, 한계점
•
시사점:
◦
CPU 기반 LLM 추론의 성능을 향상시키는 새로운 KV 캐시 할당 기법 제시 (BMC).