Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

When Language Overrules: Revealing Text Dominance in Multimodal Large Language Models

Created by
  • Haebom

作者

Huyu Wu, Meng Tang, Xinhan Zheng, Haiyun Jiang

概要

本論文は、多様なモダリティ(画像、ビデオ、オーディオ、時系列、グラフ)を処理するマルチモーダル大規模言語モデル(MLLM)の「テキスト支配(text dominance)」現象を体系的に分析した研究です。テキスト支配とは、MLLMが他のモダリティを十分に活用せずにテキストに過度に依存する現象を指します。研究では、モダリティ支配指数(MDI)と州効率指数(AEI)という2つの評価指標を提示し、さまざまなモダリティでテキスト支配現象がかなり広範囲に現れることを明らかにしました。テキスト支配の原因としては、非テキストモダリティのトークンの重複による注意力の希釈、融合アーキテクチャ設計の影響、テキスト入力を好む作業の公式化などを提示し、トークン圧縮という簡単な方法でモデルの注意力の不均衡を効果的に解決できることを示した(例: LLaVA-7BのMDIを0.8.3この研究は、よりバランスの取れた包括的なマルチモーダル言語モデルの開発のための基盤を提供します。

Takeaways、Limitations

Takeaways:
マルチモーダル大規模言語モデルにおけるテキスト支配現象の重大性と広範性を最初に体系的に明らかにした。
テキスト支配現象の原因を多角的に分析し、その解決策を提示。
提示された評価指標(MDI、AEI)とトークン圧縮方法は、将来のマルチモーダルモデルの開発と評価に役立ちます。
よりバランスの取れた包括的なマルチモーダル言語モデル開発のための重要なマイルストーンを提示します。
Limitations:
提示されたトークン圧縮方法の一般性と他のモデル/データセットへの適用性に関するさらなる研究が必要です。
テキスト支配現象の原因分析は、より深い研究を通して補完する必要があります。
さまざまな融合アーキテクチャと作業の定式化の包括的な分析が不足する可能性があります。
👍