Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Schema-Guided Scene-Graph Reasoning based on Multi-Agent Large Language Model System

Created by
  • Haebom

作者

Yiye Chen, Harpreet Sawhney, Nicholas Gyd e, Yanan Jian, Jack Saunders, Patricio Vela, Ben Lundell

概要

本論文は、大規模言語モデル(LLM)を用いた基盤となる空間推論のための構造的で直列化可能な環境表現としてのシーングラフについて提示する。 SG²という繰り返しスキーマベースのシーングラフ推論フレームワークを提案します。これはマルチエージェントLLMに基づいています。エージェントは、抽象的な作業計画とグラフ情報クエリの生成を担当する推論モジュール(Reasoner)と、クエリに応じたコード作成を通じて対応するグラフ情報を抽出する検索モジュール(Retriever)の2つのモジュールで構成されています。両方のモジュールは繰り返し協調して、順次推論とグラフ情報に対する適応的注意を可能にします。両方のモジュールに提示されるシーングラフスキーマは、推論と検索プロセスを合理化し、2つのモジュール間の協力を導くのに役立ちます。これにより、グラフデータ全体をLLMに提示する必要がなくなるため、無関係な情報による幻覚の可能性を減らすことができる。複数のシミュレーション環境での実験により、提案されたフレームワークは、既存のLLMベースのアプローチと基準単一エージェント、ツールベースのReason-while-Retrieve戦略よりも数値的なクエリ応答および計画作業で優れたパフォーマンスを示しています。

Takeaways、Limitations

Takeaways:
マルチエージェントLLMベースの反復推論フレームワークによるLLMの空間推論性能の向上
シーングラフスキーマの活用によるLLMの幻覚問題の低減と推論効率の向上
従来のシングルエージェント方式に比べて優れた性能を複数シミュレーション環境で検証。
数値的問い合わせ応答と計画作業における効果的な性能証明
Limitations:
提案されたフレームワークの一般化の可能性に関するさらなる研究が必要です。
さまざまな種類のシーングラフと複雑な環境に対する適用性検証が必要です。
実際の世界環境における性能評価と適用性研究が必要
マルチエージェントLLM間の効率的なコラボレーション戦略の追加研究が必要
👍