[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

EgoVLA: Learning Vision-Language-Action Models from Egocentric Human Videos

Created by
  • Haebom

作者

ルイハンヤン、キンシユ、イェンチャンウ、ルイヤン、ボルイリ、アンチエチェン、シュエヤンゾウ、ユンハオファン、ホンクウイン、シフェイリュウ、ソンハン、ヤオル、Xiaolong Wang

概要

本論文は、ロボット操作のための模倣学習における実際のロボットデータ収集の規模の制約を克服するために、人間中心視点のビデオデータを活用する方法を提示します。人間のビデオデータの豊富なシーンと作業情報を活用してVision-Language-Action(VLA)モデルを学習し、逆運動学(Inverse Kinematics)とリターゲティングを通じて人間の行動をロボットの行動に変換します。少量のロボット操作デモを使用してモデルを微調整し、EgoVLAと呼ばれるロボットポリシーを取得し、さまざまな両手操作作業を含むIsaac Humanoid Manipulation Benchmarkというシミュレーションベンチマークを提示し、EgoVLAを評価し、従来の方法よりもパフォーマンスを向上させました。

Takeaways、Limitations

Takeaways:
人間のビデオデータの大規模活用によるロボット操作学習の効率向上
人間行動データの豊富な情報をロボット学習に活用する新しいアプローチの提示
Isaac Humanoid Manipulation Benchmarkによるロボット操作技術の客観的評価と比較
Limitations:
人間の行動とロボットの行動の違いによる精度低下の可能性
シミュレーション環境での性能が実際の環境でも同じように適用できることを検証する必要性
人間のビデオデータの多様性と品質への依存性
👍