Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

MEXA: Towards General Multimodal Reasoning with Dynamic Multi-Expert Aggregation

Created by
  • Haebom

作者

Shoubin Yu, Yue Zhang, Ziyang Wang, Jaehong Yoon, Mohit Bansal

概要

MEXAは、事前に訓練されたエキスパートモデルを組み合わせて、さまざまな入力方式と複雑な作業にわたってスケーラブルなマルチモーダル推論を実行する学習を必要としないフレームワークです。医療診断や金融予測など、さまざまなドメインで効果的なマルチモーダル推論のために、MEXAは入力方式と作業固有の推論要件に基づいて専門家モデルを動的に選択します。各エキスパートモデルは、特定の方法と作業ペアに特化して、解釈可能なテキストベースの推論出力を生成します。 MEXAは、これらの出力を大規模推論モデル(LRM)を使用して集計し、推論して最終回答を生成します。これらのモジュラー設計は、追加のトレーニングなしにさまざまなドメインで柔軟で透明なマルチモーダル推論を可能にします。 Video Reasoning、Audio Reasoning、3D Understanding、Medical QAなどの多様なマルチモーダルベンチマークでは、MEXAは強力なマルチモーダルベースのモデルよりも一貫したパフォーマンス向上を示しました。

Takeaways、Limitations

学習が不要なフレームワークで、多様なマルチモーダル作業を効率的に処理可能です。
入力方法と作業固有の要件に基づいて、エキスパートモデルを動的に選択して精度を向上させます。
解釈可能なテキストベースの推論出力を生成し、透明な推論プロセスを提供します。
さまざまなマルチモーダルベンチマークで、従来のモデルと比較してパフォーマンスが向上しました。
医療診断、金融予測など、さまざまなドメインに適用できます。
専門家モデルのパフォーマンスに依存し、モデルの品質がMEXAの全体的なパフォーマンスに影響を与えます。
大規模推論モデル(LRM)のパフォーマンスと解釈能力によって、結果が異なる場合があります。
👍