Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

EgoAgent: A Joint Predictive Agent Model in Egocentric Worlds

Created by
  • Haebom

作者

Lu Chen, Yizhou Wang, Shixiang Tang, Qianhong Ma, Tong He, Wanli Ouyang, Xiaowei Zhou, Hujun Bao, Sida Peng

概要

本論文は、人間と同様に環境を認識し、将来を予測し、一人称視点で行動するエージェントモデルを学習する問題を扱います。既存の方法は、これらの能力を個別に学習するモデルを使用して、各能力間の相互関係を捉えることができず、お互いから学習するのを防ぐ限界を持っています。本論文では、人間の知覚行動ループを介して学習する方法に触発され、単一のトランス内で表現、予測、行動を同時に学習する統合エージェントモデルであるEgoAgentを提案します。 EgoAgentは、状態と行動の交差したシーケンスで課題を定式化し、これらの能力間の因果的および時間的依存性を明示的にモデル化します。さらに、時間的に非対称的な予測器と観測器の分岐を持つ共同埋め込み - 行動 - 予測アーキテクチャを導入して、3つの機能すべてにわたって相乗的な最適化を可能にします。画像分類、自己中心の未来状態予測、3D人間の動き予測などの代表的なタスクに対するEgoAgentの包括的な評価は、提案された方法の卓越性を示しています。コードと訓練されたモデルはhttps://github.com/zju3dv/EgoAgentで公開されています。

Takeaways、Limitations

Takeaways:
認知、予測、行動能力を統合的に学習する新しいエージェントモデルEgoAgentの提案
単一変圧器を使用した効率的な学習と推論
時間的非対称予測器と観測器分岐による相乗的最適化
画像分類、自己中心の未来状態予測、3D人間の動き予測など、さまざまなタスクで優れた性能を実証
コードと訓練されたモデル開示による研究の再現性と拡張性の確保
Limitations:
EgoAgentのパフォーマンスが特定のタスクとデータセットに限定される可能性があります
モデルの複雑さによる計算コストの増加の可能性
実環境での一般化性能に関するさらなる研究が必要
モデルの解釈力を向上させるための追加の研究が必要
👍