Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Taming the Untamed: Graph-Based Knowledge Retrieval and Reasoning for MLLMs to Conquer the Unknown

Created by
  • Haebom

作者

Bowen Wang, Zhouqiang Jiang, Yasuaki Susumu, Shotaro Miwa, Tianwei Chen, Yuta Nakashima

概要

本論文は最近、マルチモーダル大規模言語モデル(MLLM)がまれに接する特定ドメイン作業で関連知識不足で失敗することが多いことに注目し、視覚ゲーム認知能力をテストベッドとして活用してモンスターハンター:ワールドを対象にマルチモーダル知識グラフ(MH-MMKG)を構築しました。 MH-MMKGは、さまざまなモダリティと複雑なエンティティの関係を含み、それに基づいてモデルの複雑な知識の検索と推論能力を評価するための一連の難しい質問を設計しました。さらに、追加のトレーニングなしにモデルが自律的に関連する知識を検索できるように、マルチエージェント検索ツールを提案しました。実験の結果、提案されたアプローチはMLLMの性能を大幅に向上させることを示しており、マルチモーダル知識強化推論の新しい視点を提供し、将来の研究の堅牢な基盤を築きます。

Takeaways、Limitations

Takeaways:
マルチモーダル知識グラフ(MH-MMKG)を活用したマルチモーダル大規模言語モデル(MLLM)の性能向上方案を提示
マルチエージェント探索機による自律的な関連知識の検索可能性の確認
ゲーム認知能力評価のための新しいテストベッドと評価方法の提案
マルチモーダル知識増強推論研究の新しい視点の提示
Limitations:
モンスターハンター:ワールドという特定のゲームに限定された研究結果
提案されたマルチエージェント探索器の一般化の可能性に関するさらなる研究が必要
他の種類のゲームやドメインへのスケーラビリティ検証が必要
👍