[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

EgoVLA: Learning Vision-Language-Action Models from Egocentric Human Videos

Created by
  • Haebom

作者

ルイハンヤン、キンシユ、イチェンウ、ルイヤン、ボルイリ、アンチエチェン、シュエヤンゾウ、ユンハオファン、Xuxinチェン、リツァオキウ、ホンチュウジン、シフェイリュウ、ソンハン、ヤオル、Xiaolong Wang

概要

本論文は、ロボット操作のための模倣学習における実際のロボットデータ収集の規模の制約を克服するために、人間の視点で撮影されたビデオデータを活用したVision-Language-Action(VLA)モデル学習方法を提示します。人間のビデオデータの豊富なシーンと作業情報を活用してVLAモデルを学習し、逆運動学とターゲットリダイレクトを通じて人間の行動をロボットの行動に変換します。少量のロボット操作デモを使用してモデルを微調整し、EgoVLAというロボットポリシーを取得し、さまざまな両手操作を含むEgo Humanoid Manipulation Benchmarkというシミュレーションベンチマークを提示し、EgoVLAを評価します。その結果、従来の方法よりもパフォーマンスが向上し、人間のデータの重要性が実証されています。

Takeaways、Limitations

Takeaways:
実際のロボットデータ収集の限界を克服できる大規模な人間のビデオデータ活用戦略を提示
人間の行動をロボットの行動に変換する効果的な方法の提示(逆運動学とターゲットの再指定)
様々な両手操作作業を含む新しいシミュレーションベンチマーク(Ego Humanoid Manipulation Benchmark)の提示
従来法と比較した性能向上と人間データの重要性の実証
Limitations:
シミュレーション環境での評価結果なので、実際のロボット環境での性能はさらなる検証が必要
人間行動とロボット行動の違いによる性能低下の可能性がある
Ego Humanoid Manipulation Benchmarkの一般化の可能性に関するさらなる研究が必要
👍