Sign In

MixLLM: Dynamic Routing in Mixed Large Language Models

Created by
  • Haebom
Category
Empty

저자

Xinyuan Wang, Yanchi Liu, Wei Cheng, Xujiang Zhao, Zhengzhang Chen, Wenchao Yu, Yanjie Fu, Haifeng Chen

개요

본 논문은 대규모 언어 모델(LLM) 라우팅 시스템인 MixLLM을 제안합니다. MixLLM은 다양한 LLM들의 강점과 약점을 고려하여 질의에 가장 적합한 모델을 동적으로 선택하여 응답 품질을 극대화하고 비용과 지연 시간을 최소화하는 것을 목표로 합니다. 이는 질의 태그를 활용한 향상된 질의 임베딩, 응답 품질 및 비용을 예측하는 경량 예측 모델, 그리고 응답 품질, 비용, 지연 시간 간의 최적 절충을 위한 메타 의사 결정자를 통해 구현됩니다. 지속적인 학습 기능을 통해 변화하는 질의와 사용자 피드백에 적응할 수 있다는 장점이 있습니다. 실험 결과, MixLLM은 GPT-4의 97.25% 품질을 24.18%의 비용으로 달성하여 최적의 절충을 보였습니다.

시사점, 한계점

시사점:
다양한 LLM들을 효율적으로 활용하여 비용과 지연 시간을 줄이면서 높은 품질의 응답을 제공하는 효과적인 LLM 라우팅 시스템을 제시.
질의 태그와 경량 예측 모델을 활용하여 정확하고 효율적인 LLM 선택 가능.
지속적인 학습을 통해 시스템 성능을 지속적으로 개선.
실험 결과를 통해 MixLLM의 우수성을 검증.
한계점:
새로운 LLM 추가 또는 기존 LLM 제거와 같은 LLM 집합의 동적 변화에 대한 적응성에 대한 추가적인 연구 필요.
다양한 유형의 질의와 사용자 피드백에 대한 일반화 성능에 대한 추가적인 검증 필요.
실제 운영 환경에서의 확장성 및 안정성에 대한 추가적인 평가 필요.
사용되는 질의 태그의 정확성과 신뢰도에 시스템 성능이 의존적일 수 있음.
👍