本論文では、大規模言語モデル(LLM)とドメインに特化したAIエージェントの進歩により、複雑で多様なAIサービス環境で効率的なクエリルーティング問題を解決するためのMichature of Models and Agents(MoMA)フレームワークを提案します。 MoMA は、LLM とエージェントベースのルーティングを統合し、正確な意図認識と適応型ルーティング戦略を通じてさまざまなクエリを効率的に処理します。さまざまなLLMのパフォーマンスをプロファイリングした詳細な学習データセットを構築して、各LLMに最適なタスクを識別し、推論時には、コストパフォーマンスの高い最高のLLMにクエリを動的にルーティングします。さらに、コンテキスト認識ステートマシンと動的マスキングベースの効率的なエージェント選択戦略を導入しました。実験の結果,MoMA ルータは従来の方法より優れた費用対効果とスケーラビリティを提供することを示した。