Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Graph2Eval: Automatic Multimodal Task Generation for Agents via Knowledge Graphs

Created by
  • Haebom

作者

Yurun Chen, Xavier Hu, Yuhan Liu, Ziqi Wang, Zeyi Liao, Lin Chen, Feng Wei, Yuxi Qian, Bo Zheng, Keting Yin, Shengyu Zhang

概要

マルチモーダルLLMベースのエージェントの自律性と一般化能力が発展するにつれて、静的データセットベースの評価は、動的環境とさまざまなタスクでの実際の能力を十分に評価できないという問題を提示し、これを解決するためにGraph2Evalを提案します。 Graph2Evalは、知識グラフに基づいてマルチモーダル文書の理解とWebインタラクションタスクを自動生成し、エージェントの推論、コラボレーション、相互作用能力を総合的に評価するフレームワークです。外部データから構築された知識グラフをワークスペースとして活用し、サブグラフサンプリング、作業テンプレート、メタパスを通じて意味的関係を構造化されたマルチモーダルタスクに変換する。ノード到達性、LLMスコア、類似性分析に基づいて、マルチレベルフィルタリングパイプラインを介して作成されたタスクの品質と実行可能性を保証します。 Graph2Evalは、Single-Agent、Multi-Agent、Web Agentなど、さまざまなエージェントタイプのエンドツーエンド評価をサポートし、推論、コラボレーション、相互作用能力を測定します。 Graph2Eval-Benchという1,319の文書理解とWebインタラクションシナリオを含むキュレーションされたデータセットを通じてフレームワークを実装し、実験を進め、エージェントとモデルのパフォーマンスを差別化し、さまざまな設定で推論、コラボレーション、Web相互作用のギャップを示し、エージェント評価の新しい視点を提示する。

Takeaways、Limitations

Takeaways:
動的環境とさまざまなタスクでエージェントの能力を評価するための新しいフレームワークを提示します。
知識グラフを活用したマルチモーダルタスクの自動生成。
推論、コラボレーション、Webインタラクション能力を総合的に評価。
さまざまなエージェントタイプのエンドツーエンド評価サポート
Graph2Eval-Benchによる実際の実験と性能検証
エージェント評価の新しい視点の提示
Limitations:
LLMベースのジョブの作成と評価であるため、LLMのパフォーマンスに依存する可能性があります。
知識グラフの構築と保守の複雑さ。
生成されたタスクの品質を保証するためのフィルタリングパイプラインの複雑さ。
Webインタラクション作業の場合は、Web環境の変化に対する適応力が必要です。
👍