본 논문은 LLM 추론에서 메모리 병목 현상을 해결하기 위해 CXL 스위치를 통해 GPU와 CPU가 공유 메모리 풀에 접근할 수 있도록 하는 Beluga라는 새로운 메모리 아키텍처를 제안합니다. Beluga는 CXL 패브릭을 통해 네이티브 load/store 접근 방식을 지원하여 로컬 메모리에 가까운 지연 시간을 제공하고, 프로그래밍 복잡성을 줄이며, 동기화 오버헤드를 최소화합니다. Beluga 기반의 Beluga-KVCache 시스템은 vLLM 추론 엔진에서 RDMA 기반 솔루션에 비해 TTFT를 89.6% 감소시키고 처리량을 7.35배 향상시켰습니다. Beluga는 CXL 스위치를 통해 GPU가 대규모 메모리 풀에 직접 접근할 수 있도록 하는 최초의 시스템입니다.
시사점, 한계점
•
시사점:
◦
CXL 기술을 활용하여 GPU와 CPU 간의 공유 메모리 접근 방식을 개선하여 LLM 추론 성능 향상.