AgentFlux: Decoupled Fine-Tuning & Inference for On-Device Agentic Systems
Created by
Haebom
Category
Empty
저자
Rohan Kadekodi, Zhan Jin, Keisuke Kamahori, Yile Gu, Sean Khatiri, Noah H. Bayindirli, Sergey Gorbunov, Baris Kasikci
개요
본 논문은 에이전트 오케스트레이션을 위한 대규모 언어 모델(LLM)의 온디바이스 추론 능력 향상을 목표로 한다. 특히 도구 호출 시 발생하는 성능 저하 문제를 해결하기 위해, 도구 선택과 인자 생성을 분리하는 "decoupled fine-tuning" 방법을 제안한다. 또한, 생성된 LoRA 어댑터를 활용하여 효율적인 에이전트 오케스트레이션을 수행하는 AgentFlux 추론 프레임워크를 제시한다. 실험 결과, decoupled fine-tuning을 사용한 Qwen-2.5-7B 모델이 기존 모델 대비 46%의 성능 향상을 보였으며, 유사 크기 또는 더 큰 모델들을 능가하는 성능을 보였다.
시사점, 한계점
•
시사점:
◦
온디바이스 환경에서 LLM의 도구 호출 성능을 향상시키는 새로운 fine-tuning 기법 제시.