Sign In

Continuum: Efficient and Robust Multi-Turn LLM Agent Scheduling with KV Cache Time-to-Live

Created by
  • Haebom
Category
Empty

저자

Hanchen Li, Qiuyang Mang, Runyuan He, Qizheng Zhang, Huanzhi Mao, Xiaokun Chen, Alvin Cheung, Joseph Gonzalez, Ion Stoica

개요

본 논문은 에이전트 기반 LLM 애플리케이션의 작업 완료 시간을 최적화하기 위해, 도구 호출을 고려한 KV 캐시 타임아웃과 프로그램 수준 스케줄링을 결합한 서빙 시스템인 'Continuum'을 제안합니다. Continuum은 도구 호출의 지속 시간을 예측하여 KV 캐시를 선택적으로 고정하고, 프로그램 수준의 FCFS 스케줄링을 통해 스케줄링 공백을 방지하며, 다중 턴 연속성을 유지하여 복잡한 에이전트 워크로드의 처리량을 최적화합니다. Llama-3.1 8B/70B 모델을 사용한 SWE-Bench 및 BFCL과 같은 실제 에이전트 워크로드에 대한 평가 결과, Continuum이 평균 작업 완료 시간을 유의미하게 개선하고 다양한 하드웨어 및 DRAM 오프로딩 환경에서도 뛰어난 성능을 유지함을 보였습니다.

시사점, 한계점

시사점:
에이전트 기반 LLM 애플리케이션의 다중 턴 환경에서 발생하는 KV 캐시 관련 문제를 해결하여 작업 완료 시간을 개선함.
도구 호출 지속 시간을 예측하여 효율적인 KV 캐시 관리를 가능하게 함.
프로그램 수준의 스케줄링을 통해 다중 턴 연속성을 유지하고 처리량을 최적화함.
실제 에이전트 워크로드에 대한 평가를 통해 제안 시스템의 실용성을 입증함.
한계점:
제안 시스템의 성능은 도구 호출 지속 시간 예측의 정확성에 의존함.
다양한 종류의 에이전트 워크로드와 모델에 대한 광범위한 평가가 필요할 수 있음.
하드웨어 및 DRAM 오프로딩 환경에 따라 성능 차이가 발생할 수 있음.
👍