本論文は、マルチモーダル大規模言語モデル(MLLM)の効率的な推論のための適応型推論フレームワークであるAdaLLaVAを提案する。既存のMLLMは高い計算コストのためにリソース制約環境での展開が困難であり、AdaLLaVAは推論中の入力データと遅延時間の予算を考慮してMLLMの操作を動的に再構成する学習ベースのアプローチを通じてこの問題を解決します。質問の回答、推論、幻覚などのさまざまなベンチマーク実験は、AdaLLaVAが入力遅延時間の予算に効果的に準拠し、実行時間に応じて精度と遅延時間のさまざまな妥協を達成することを示しています。また、入力遅延時間とコンテンツに適応し、トークン選択と統合して効率を高め、さまざまなMLLMに一般化できることを証明します。