본 논문은 대규모 언어 모델(LLM)과 도메인 특화 AI 에이전트의 발전으로 인해 다양하고 복잡해진 AI 서비스 환경에서 효율적인 질의 라우팅 문제를 해결하기 위해 MoMA(Mixture of Models and Agents) 프레임워크를 제안합니다. MoMA는 LLM과 에이전트 기반 라우팅을 통합하여 정확한 의도 인식과 적응형 라우팅 전략을 통해 다양한 질의를 효율적으로 처리합니다. 다양한 LLM의 성능을 프로파일링한 상세한 학습 데이터셋을 구축하여 각 LLM에 가장 적합한 작업을 식별하고, 추론 시에는 비용-성능 효율이 가장 높은 LLM에 질의를 동적으로 라우팅합니다. 또한, 컨텍스트 인식 상태 머신과 동적 마스킹 기반의 효율적인 에이전트 선택 전략을 도입했습니다. 실험 결과, MoMA 라우터는 기존 방법보다 우수한 비용 효율성과 확장성을 제공함을 보여줍니다.
시사점, 한계점
•
시사점:
◦
다양한 LLM과 에이전트를 효율적으로 활용하는 새로운 라우팅 프레임워크를 제시.
◦
비용-성능 균형을 최적화하는 동적 라우팅 전략을 통해 효율성 증대.
◦
컨텍스트 인식 상태 머신과 동적 마스킹을 활용한 효과적인 에이전트 선택 전략 제시.
◦
실험을 통해 MoMA의 우수한 비용 효율성과 확장성을 검증.
•
한계점:
◦
제안된 MoMA 프레임워크의 실제 서비스 환경 적용 및 장기간 안정성에 대한 추가적인 검증 필요.