Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Towards Generalized Routing: Model and Agent Orchestration for Adaptive and Efficient Inference

Created by
  • Haebom

저자

Xiyu Guo, Shan Wang, Chunfang Ji, Xuefeng Zhao, Wenhao Xi, Yaoyao Liu, Qinglan Li, Chao Deng, Junlan Feng

개요

본 논문은 대규모 언어 모델(LLM)과 도메인 특화 AI 에이전트의 발전으로 인해 다양하고 복잡해진 AI 서비스 환경에서 효율적인 질의 라우팅 문제를 해결하기 위해 MoMA(Mixture of Models and Agents) 프레임워크를 제안합니다. MoMA는 LLM과 에이전트 기반 라우팅을 통합하여 정확한 의도 인식과 적응형 라우팅 전략을 통해 다양한 질의를 효율적으로 처리합니다. 다양한 LLM의 성능을 프로파일링한 상세한 학습 데이터셋을 구축하여 각 LLM에 가장 적합한 작업을 식별하고, 추론 시에는 비용-성능 효율이 가장 높은 LLM에 질의를 동적으로 라우팅합니다. 또한, 컨텍스트 인식 상태 머신과 동적 마스킹 기반의 효율적인 에이전트 선택 전략을 도입했습니다. 실험 결과, MoMA 라우터는 기존 방법보다 우수한 비용 효율성과 확장성을 제공함을 보여줍니다.

시사점, 한계점

시사점:
다양한 LLM과 에이전트를 효율적으로 활용하는 새로운 라우팅 프레임워크를 제시.
비용-성능 균형을 최적화하는 동적 라우팅 전략을 통해 효율성 증대.
컨텍스트 인식 상태 머신과 동적 마스킹을 활용한 효과적인 에이전트 선택 전략 제시.
실험을 통해 MoMA의 우수한 비용 효율성과 확장성을 검증.
한계점:
제안된 MoMA 프레임워크의 실제 서비스 환경 적용 및 장기간 안정성에 대한 추가적인 검증 필요.
다양한 유형의 질의에 대한 일반화 성능 평가 및 개선 필요.
학습 데이터셋의 품질과 크기가 MoMA 성능에 미치는 영향에 대한 추가 분석 필요.
특정 도메인이나 작업 유형에 편향된 결과 발생 가능성에 대한 고려 필요.
👍