본 논문은 대규모 언어 모델(LLM) 서비스 제공에서 중간 결과 캐싱(KV$)의 효과를 체계적으로 분석한 최초의 연구입니다. 선행 연구들이 주로 인공적인 작업 부하에 초점을 맞춘 것과 달리, 주요 LLM 서비스 제공업체의 실제 데이터를 사용하여 KV$ 작업 부하 패턴을 특징지었습니다. 특히, 단일 턴 요청 간의 재사용이 다중 턴 요청 간의 재사용만큼 중요하다는 점, 요청 범주별로는 재사용 시간 및 확률 패턴이 예측 가능하지만 전체 요청을 고려하면 다양하다는 점, 그리고 이상적인 캐시 적중률을 위한 전체 캐시 크기는 적당하다는 점 등을 관찰했습니다. 이러한 특징 분석을 바탕으로 실제 환경 추적에서, 특히 제한된 캐시 용량 하에서 서비스 성능을 향상시키는 작업 부하 인식 캐시 제거 정책을 제안합니다.
시사점, 한계점
•
시사점:
◦
실제 LLM 서비스 환경에서의 KV$ 캐싱 효과에 대한 최초의 체계적인 분석을 제공합니다.
◦
단일 턴 요청과 다중 턴 요청 간의 캐시 재사용 중요성을 동등하게 밝혔습니다.
◦
작업 부하 특성에 맞는 캐시 제거 정책 설계의 중요성을 강조합니다.
◦
제한된 캐시 용량에서도 성능을 향상시키는 새로운 캐시 제거 정책을 제안합니다.
•
한계점:
◦
분석에 사용된 데이터가 특정 LLM 서비스 제공업체의 데이터에 한정되어 일반화 가능성에 제한이 있습니다.
◦
제안된 캐시 제거 정책의 성능은 특정 작업 부하에 최적화되어 다른 작업 부하에서는 성능이 달라질 수 있습니다.
◦
다양한 LLM 아키텍처나 서비스 환경에 대한 일반화 가능성에 대한 추가 연구가 필요합니다.