Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Reducing Latency of LLM Search Agent via Speculation-based Algorithm-System Co-Design

Created by
  • Haebom
Category
Empty

저자

Zixiao Huang, Wen Zeng, Tianyu Fu, Tengxuan Liu, Yizhou Sun, Ke Hong, Xinhao Yang, Chengchun Liu, Yan Li, Quanlu Zhang, Guohao Dai, Zhenhua Zhu, Yu Wang

개요

LLM 기반 검색 에이전트는 강력한 성능을 보이지만, 각 단계가 직렬화된 LLM 추론과 도구 실행을 필요로 하므로 심각한 지연 시간을 겪습니다. 본 논문은 추론을 통해 이 병목 현상을 재고합니다. 기존 예측-검증 추론 패러다임이 직렬 실행을 깰 수 있지만, 전체 원래 워크로드를 유지하고 추가 추론 오버헤드를 추가하므로 이점은 제한적입니다. 초기 에이전트 단계는 종종 완전한 추론 없이도 올바른 작업이 예측될 수 있는 단순한 증거 수집을 포함합니다. 이러한 관찰을 바탕으로, 본 논문은 검색 에이전트에서 추론의 역할을 확대하여 지연 시간을 줄이는 알고리즘-시스템 공동 설계 프레임워크인 SPAgent를 제시합니다. 알고리즘적으로 SPAgent는 안전할 때 검증을 선택적으로 생략하는 2단계 적응형 추론 메커니즘을 도입합니다. 시스템적으로는, 2단계 스케줄러가 엔진 부하에 따라 추론 요청을 조절하여 추론이 계속 유익하도록 보장합니다. SPAgent는 실제 시스템에서 구현되었으며, 광범위한 실험 설정을 통해 SPAgent는 최대 1.65배의 엔드 투 엔드 속도 향상을 달성하면서 동일하거나 더 높은 정확도를 유지하여 다단계 검색 에이전트의 실질적인 배포를 가능하게 합니다.

시사점, 한계점

시사점:
LLM 기반 검색 에이전트의 지연 시간 문제를 해결하기 위한 새로운 접근 방식 제시 (추론 기반).
2단계 적응형 추론 메커니즘과 2단계 스케줄러를 통한 알고리즘-시스템 공동 설계 프레임워크 제시.
실제 시스템에서 구현 및 광범위한 실험을 통해 성능 향상 입증 (최대 1.65배 속도 향상).
정확도를 유지하거나 향상시키면서 속도 개선.
한계점:
논문에서 구체적인 한계점에 대한 직접적인 언급은 없음. (하지만, 추론 기반 방식의 특성상 추론의 정확도에 의존하며, 특정 환경 및 데이터에 따라 성능이 달라질 수 있다는 점을 예상할 수 있음.)
SPAgent의 효과가 모든 검색 에이전트 시나리오에 동일하게 적용될 수 있는지에 대한 추가 연구 필요.
👍