Sign In

Scalable Processing-Near-Memory for 1M-Token LLM Inference: CXL-Enabled KV-Cache Management Beyond GPU Limits

Created by
  • Haebom
Category
Empty

저자

Dowon Kim, MinJae Lee, Janghyeon Kim, HyuckSung Kwon, Hyeonggyu Jeong, Sang-Soo Park, Minyong Yoon, Si-Dong Roh, Yongsuk Kwon, Jinin So, Jungwook Choi

개요

대규모 언어 모델(LLM)의 컨텍스트 창이 수백만 토큰으로 확장되면서, 특히 증가하는 Key-Value(KV) 캐시 관리에서 심각한 메모리 및 계산 병목 현상이 발생합니다. 본 논문은 CXL을 활용하여 GPU 한계를 넘어 메모리와 계산을 조정하는 100만 토큰 LLM 추론을 위한 확장 가능한 Processing-Near-Memory (PNM)을 제안합니다. PNM 액셀러레이터를 사용하여 토큰 페이지 선택을 CXL 메모리로 오프로드하여 비용이 많이 드는 리콜을 제거하고 더 큰 GPU 배치 크기를 가능하게 합니다. 또한 하이브리드 병렬화 전략과 안정적인 토큰 선택 메커니즘을 도입하여 계산 효율성과 확장성을 향상시킵니다. 최대 4050억 개의 파라미터와 100만 토큰 컨텍스트를 가진 LLM에 대해 일관된 성능 향상을 제공하며, PNM 전용 오프로딩 방식(PNM-KV) 및 안정적인 토큰 실행을 갖춘 GPU-PNM 하이브리드(PnG-KV)는 최대 21.9배의 처리량 향상, 최대 60배 낮은 토큰당 에너지 소비, 최대 7.3배의 총 비용 효율성을 달성합니다.

시사점, 한계점

시사점:
CXL-PNM 아키텍처는 긴 컨텍스트 LLM 추론을 위한 확장 가능한 기반 역할을 할 수 있습니다.
PNM-KV 및 PnG-KV 방식은 기존 방식 대비 상당한 성능 향상(처리량, 에너지 효율, 비용 효율)을 보입니다.
PNM을 활용한 KV 캐시 관리 시스템은 GPU 메모리 제약에서 벗어나 더 큰 배치 사이즈를 가능하게 합니다.
한계점:
본 연구는 CXL-PNM 시스템에 기반하며, CXL 하드웨어의 가용성에 의존적입니다.
PNM 액셀러레이터의 구현 및 최적화에 대한 상세 정보는 제한적입니다.
다양한 모델 아키텍처 및 컨텍스트 길이에서의 성능 평가가 필요합니다.
👍