Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Aligning Vision to Language: Annotation-Free Multimodal Knowledge Graph Construction for Enhanced LLMs Reasoning

Created by
  • Haebom

作者

Junming Liu, Siyuan Meng, Yanting Gao, Song Mao, Pinlong Cai, Guohang Yan, Yirong Chen, Zilin Bian, Ding Wang, Botian Shi

概要

本論文は,大規模言語モデル(LLM)のマルチモード推論における不完全な知識とサイケデリックアーチファクト問題を解決するために,視覚言語統合知識グラフ(VaLiK)を提案する。 VaLiKは、事前に訓練された視覚言語モデル(VLM)を使用して、画像の特徴をテキストと整列させ、画像固有の情報を含む説明に変換します。さらに、クロスモード類似度検証メカニズムにより、特徴的なアライメント過程で発生するノイズを効果的に除去する。手動で注釈付きの画像キャプションなしで、改善された説明だけでMMKGを設定できます。既存のMMKG構成方法と比較して、ストレージ効率を大幅に向上させ、エンティティ - イメージ直接接続機能を維持します。マルチモード推論作業の実験結果は,VaLiKを利用したLLMが従来の最先端モデルより性能が優れていることを示した。

Takeaways、Limitations

Takeaways:
事前訓練されたVLMを活用して効率的にMMKGを構築するための新しい方法を提示します。
手動注釈なしで画像情報を活用してLLMの推論性能を向上
既存のMMKGと比較して改善されたストレージ効率とエンティティ - 画像接続機能を提供します。
マルチモード推論作業における従来の最先端モデル性能を超える結果を達成
Limitations:
提案された方法の性能は、使用されるVLMの性能に依存し得る。
特徴整列とノイズフィルタリングプロセスの最適化の余地の存在
多種多様なマルチモードデータの一般化性能評価が必要
👍