Continuum: Efficient and Robust Multi-Turn LLM Agent Scheduling with KV Cache Time-to-Live
Created by
Haebom
Category
Empty
저자
Hanchen Li, Qiuyang Mang, Runyuan He, Qizheng Zhang, Huanzhi Mao, Xiaokun Chen, Alvin Cheung, Joseph Gonzalez, Ion Stoica
개요
본 논문은 에이전트 기반 LLM 애플리케이션의 작업 완료 시간을 최적화하기 위해, 도구 호출을 고려한 KV 캐시 타임아웃과 프로그램 수준 스케줄링을 결합한 서빙 시스템인 'Continuum'을 제안합니다. Continuum은 도구 호출의 지속 시간을 예측하여 KV 캐시를 선택적으로 고정하고, 프로그램 수준의 FCFS 스케줄링을 통해 스케줄링 공백을 방지하며, 다중 턴 연속성을 유지하여 복잡한 에이전트 워크로드의 처리량을 최적화합니다. Llama-3.1 8B/70B 모델을 사용한 SWE-Bench 및 BFCL과 같은 실제 에이전트 워크로드에 대한 평가 결과, Continuum이 평균 작업 완료 시간을 유의미하게 개선하고 다양한 하드웨어 및 DRAM 오프로딩 환경에서도 뛰어난 성능을 유지함을 보였습니다.
시사점, 한계점
•
시사점:
◦
에이전트 기반 LLM 애플리케이션의 다중 턴 환경에서 발생하는 KV 캐시 관련 문제를 해결하여 작업 완료 시간을 개선함.