Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Learning to Inference Adaptively for Multimodal Large Language Models

Created by
  • Haebom

作者

Zhuoyan Xu、Khoi Duc Nguyen、Preeti Mukherjee、Saurabh Bagchi、Somali Chaterji、Yingyu Liang、Yin Li

概要

本論文は、マルチモーダル大規模言語モデル(MLLM)の効率的な推論のための適応型推論フレームワークであるAdaLLaVAを提案する。既存のMLLMは高い計算コストのためにリソース制約環境での展開が困難であり、AdaLLaVAは推論中の入力データと遅延時間の予算を考慮してMLLMの操作を動的に再構成する学習ベースのアプローチを通じてこの問題を解決します。質問の回答、推論、幻覚などのさまざまなベンチマーク実験は、AdaLLaVAが入力遅延時間の予算に効果的に準拠し、実行時間に応じて精度と遅延時間のさまざまな妥協を達成することを示しています。また、入力遅延時間とコンテンツに適応し、トークン選択と統合して効率を高め、さまざまなMLLMに一般化できることを証明します。

Takeaways、Limitations

Takeaways:
限られたリソース環境でもMLLMを効率的に活用できる新しい方法を提示します。
入力データと遅延時間の予算に基づいてMLLM演算を動的に調整することで、最適なパフォーマンスを実現します。
トークン選択との統合により、さらなる効率向上の可能性を提示する。
さまざまなMLLMに適用可能な一般的なフレームワーク。
Limitations:
AdaLLaVAのパフォーマンスは、使用されるMLLMとベンチマークデータセットによって異なります。
実環境での一般化性能の追加検証が必要
非常に複雑な質問や画像の処理性能は、さらなる研究を必要とするかもしれません。
👍