Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

ESCA: Contextualizing Embodied Agents via Scene-Graph Generation

Created by
  • Haebom

作者

Jiani Huang, Amish Sethi, Matthew Kuo, Mayank Keoliya, Neelay Velingker, JungHo Jung, Ser-Nam Lim, Ziyang Li, Mayur Naik

概要

ESCAは、低レベルの視覚的特徴と高レベルのテキストセマンティクスとの間の細かい関連性を特定するのが困難な従来のマルチモーダルラージ言語モデル(MLLM)の制限を克服するために提案されたフレームワークです。 ESCAは、空間時間シーングラフに基づいてエージェントの認識を具体化してコンテキストを提供します。コアは、CLIPベースのシーングラフを生成するための新しいオープンドメインプロンプト対応ベースのモデルであるSGCLIPです。 SGCLIPは、人間がラベルを付けたコメントなしで自動生成されたキャプションをモデル自体で生成されたシーングラフと整列させる神経記号パイプラインを使用して、87,000を超えるオープンドメインビデオについて学習されました。 SGCLIPは、プロンプトベースの推論とタスク固有の微調整の両方をうまく実行し、シーングラフの作成とアクションローカリゼーションベンチマークで最先端の結果を達成します。 SGCLIPを使用したESCAは、オープンソースおよび商用MLLMベースのマテリアライズドエージェントの認識を向上させ、2つのマテリアライズド環境で最先端のパフォーマンスを達成します。 ESCAはエージェント認識エラーを大幅に削減し、オープンソースモデルが排他的なベースラインを上回るようにします。

Takeaways、Limitations

Takeaways:
ESCAはMLLMの認識能力を向上させる新しいフレームワークを提供します。
SGCLIPは、オープンドメインのシーングラフ生成において優れたパフォーマンスを発揮します。
ESCAはオープンソースモデルのパフォーマンスを向上させ、商用モデルを上回ります。
ソースコードを公開し、研究の再現と拡張を容易にします。
Limitations:
論文で具体的なLimitationsは明示的に言及されていない。 (追加研究が必要)
👍