Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Beluga: A CXL-Based Memory Architecture for Scalable and Efficient LLM KVCache Management

Created by
  • Haebom
Category
Empty

저자

Xinjun Yang, Qingda Hu, Junru Li, Feifei Li, Yuqi Zhou, Yicong Zhu, Qiuru Lin, Jian Dai, Yang Kong, Jiayu Zhang, Guoqiang Xu, Qiang Liu

개요

본 논문은 LLM 추론에서 메모리 병목 현상을 해결하기 위해 CXL 스위치를 통해 GPU와 CPU가 공유하는 대규모 메모리 풀에 접근하는 새로운 메모리 아키텍처인 Beluga를 제안합니다. Beluga는 CXL 패브릭을 통해 네이티브 로드/저장 접근 방식을 지원하여 로컬 메모리에 가까운 지연 시간을 제공하고 프로그래밍 복잡성을 줄이며 동기화 오버헤드를 최소화합니다. Beluga 기반의 Beluga-KVCache 시스템은 RDMA 기반 솔루션에 비해 TTFT를 89.6% 감소시키고 vLLM 추론 엔진에서 7.35배의 처리량 향상을 달성했습니다.

시사점, 한계점

시사점:
CXL 스위치를 활용하여 GPU가 대규모 메모리 풀에 직접 접근할 수 있도록 하는 최초의 시스템.
RDMA 기반 솔루션에 비해 지연 시간 감소 및 처리량 향상.
프로그래밍 복잡성 감소 및 동기화 오버헤드 최소화.
한계점:
상용 CXL 스위치 기반 메모리 풀에 대한 특성화가 필요함.
특정 LLM 추론 엔진 (vLLM)에서의 성능 평가.
CXL 기술 의존성.
👍