Sign In

Category-Aware Semantic Caching for Heterogeneous LLM Workloads

Created by
  • Haebom
Category
Empty

저자

Chen Wang, Xunzhuo Liu, Yue Zhu, Alaa Youssef, Priya Nagpurkar, Huamin Chen

개요

LLM 서빙 시스템은 다양한 특징을 보이는 이질적인 쿼리 워크로드를 처리합니다. 코드 쿼리는 임베딩 공간에서 조밀하게 클러스터링되는 반면, 대화형 쿼리는 드문드문 분포합니다. 내용의 최신성은 분(주식 데이터)에서 달(코드 패턴)까지 다양합니다. 쿼리 반복 패턴은 멱법칙(코드)에서 균일(대화)까지 다양하며, 긴 꼬리 캐시 적중률 분포를 생성합니다. 높은 반복률 범주는 40-60%의 적중률을 달성하는 반면, 낮은 반복률 또는 변동성이 큰 범주는 5-15%의 적중률을 달성합니다. 원격 검색 비용(30ms)은 손익분기점을 맞추기 위해 15-20%의 적중률이 필요하므로, 벡터 데이터베이스는 롱테일을 제외해야 하며, 프로덕션 트래픽의 20-30%가 캐시되지 않은 상태로 남게 됩니다. 균일한 캐시 정책은 이 문제를 악화시킵니다: 고정 임계값은 조밀한 공간에서 오탐을 유발하고, 희소 공간에서 유효한 의역을 놓칩니다; 고정 TTL은 메모리를 낭비하거나 오래된 데이터를 제공합니다. 본 논문에서는 유사성 임계값, TTL 및 할당량이 쿼리 범주별로 다른 범주 인식 의미 캐싱을 제시합니다. 메모리 내 HNSW 검색과 외부 문서 스토리지를 분리하는 하이브리드 아키텍처를 제시하여 미스 비용을 30ms에서 2ms로 줄입니다. 이 감소로 인해 낮은 적중률 범주가 경제적으로 실행 가능하게 되며(3-5% 대 15-20%에서 손익분기점), 전체 워크로드 분포에서 캐시 범위를 활성화합니다. 적응형 부하 기반 정책은 이 프레임워크를 확장하여 다운스트림 모델 부하에 대응하고, 이론적 예측에서 과부하된 모델에 대한 트래픽을 9-17% 줄이기 위해 임계값과 TTL을 동적으로 조정합니다.

시사점, 한계점

시사점:
범주별 캐싱을 통해 다양한 쿼리 특성에 맞춘 효율적인 캐싱 가능.
하이브리드 아키텍처를 통해 미스 비용 감소 및 캐시 적중률 향상.
적응형 부하 기반 정책을 통한 모델 부하 관리 및 트래픽 감소.
한계점:
논문에서 제시된 이론적 예측에 대한 실제 성능 검증 필요.
구체적인 쿼리 범주 분류 및 특성 분석 방법에 대한 상세 정보 부족.
각 범주별 최적의 임계값, TTL, 할당량 설정에 대한 추가 연구 필요.
👍