본 논문은 LLM 추론에서 메모리 병목 현상을 해결하기 위해 CXL 스위치를 통해 GPU와 CPU가 공유하는 대규모 메모리 풀에 접근하는 새로운 메모리 아키텍처인 Beluga를 제안합니다. Beluga는 CXL 패브릭을 통해 네이티브 로드/저장 접근 방식을 지원하여 로컬 메모리에 가까운 지연 시간을 제공하고 프로그래밍 복잡성을 줄이며 동기화 오버헤드를 최소화합니다. Beluga 기반의 Beluga-KVCache 시스템은 RDMA 기반 솔루션에 비해 TTFT를 89.6% 감소시키고 vLLM 추론 엔진에서 7.35배의 처리량 향상을 달성했습니다.
시사점, 한계점
•
시사점:
◦
CXL 스위치를 활용하여 GPU가 대규모 메모리 풀에 직접 접근할 수 있도록 하는 최초의 시스템.