本論文は、ロボット操作のための模倣学習における実際のロボットデータ収集の規模の制約を克服するために、人間の視点で撮影されたビデオデータを活用したVision-Language-Action(VLA)モデル学習方法を提示します。人間のビデオデータの豊富なシーンと作業情報を活用してVLAモデルを学習し、逆運動学とターゲットリダイレクトを通じて人間の行動をロボットの行動に変換します。少量のロボット操作デモを使用してモデルを微調整し、EgoVLAというロボットポリシーを取得し、さまざまな両手操作を含むEgo Humanoid Manipulation Benchmarkというシミュレーションベンチマークを提示し、EgoVLAを評価します。その結果、従来の方法よりもパフォーマンスが向上し、人間のデータの重要性が実証されています。