Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Shared Disk KV Cache Management for Efficient Multi-Instance Inference in RAG-Powered LLMs

Created by
  • Haebom

저자

Hyungwoo Lee (Dept. of Computer Science and Engineering, Sogang University, Seoul, Republic of Korea), Kihyun Kim (Dept. of Computer Science and Engineering, Sogang University, Seoul, Republic of Korea), Jinwoo Kim (Dept. of Computer Science and Engineering, Sogang University, Seoul, Republic of Korea), Jungmin So (Dept. of Computer Science and Engineering, Sogang University, Seoul, Republic of Korea), Myung-Hoon Cha (ETRI, Daejeon, Republic of Korea), Hong-Yeon Kim (ETRI, Daejeon, Republic of Korea), James J. Kim (Soteria Inc), Youngjae Kim (Dept. of Computer Science and Engineering, Sogang University, Seoul, Republic of Korea)

개요

본 논문은 대규모 언어 모델(LLM)의 추론 지연 시간을 줄이는 방법을 제안합니다. 특히, 외부 지식을 활용하여 LLM 응답을 향상시키는 검색 증강 생성(RAG) 기법은 입력 토큰 수를 크게 증가시켜 추론 지연 시간을 악화시키는 문제점을 가지고 있습니다. 본 논문에서는 prefill 단계에서의 계산 부하를 줄이기 위해 디스크 기반 키-값(KV) 캐시를 활용하는 방법을 제시합니다. 또한, 다중 인스턴스 LLM RAG 서비스 환경을 위한 디스크 기반 공유 KV 캐시 관리 시스템인 Shared RAG-DCache를 소개합니다. Shared RAG-DCache는 RAG에서 사용자 질의와 관련된 문서의 지역성과 LLM 추론 서비스의 대기 지연을 활용하여 질의 관련 문서에 대한 디스크 KV 캐시를 사전에 생성하고 여러 LLM 인스턴스 간에 공유하여 추론 성능을 향상시킵니다.

시사점, 한계점

시사점:
디스크 기반 KV 캐시를 활용하여 RAG 기반 LLM의 prefill 단계에서의 계산 부하를 효과적으로 줄일 수 있음을 보여줍니다.
Shared RAG-DCache 시스템을 통해 다중 인스턴스 LLM RAG 서비스 환경에서 처리량과 지연 시간을 동시에 개선할 수 있음을 실험적으로 증명합니다.
RAG의 문서 지역성과 LLM 추론 서비스의 대기 지연을 활용하여 성능 향상을 도모하는 새로운 접근 방식을 제시합니다.
한계점:
실험은 2개의 GPU와 1개의 CPU를 갖춘 단일 호스트 환경에서 수행되었으므로, 더욱 다양한 환경에서의 성능 평가가 필요합니다.
캐시 관리 시스템의 확장성 및 안정성에 대한 추가적인 연구가 필요합니다.
특정 RAG 시스템 및 LLM에 대한 최적화가 이루어졌을 수 있으므로, 다른 시스템 및 모델에 대한 일반화 가능성을 검증해야 합니다.
👍