本論文は、ロボット操作のための模倣学習における実際のロボットデータ収集の規模の制約を克服するために、人間中心視点のビデオデータを活用する方法を提示します。人間のビデオデータの豊富なシーンと作業情報を活用してVision-Language-Action(VLA)モデルを学習し、逆運動学(Inverse Kinematics)とリターゲティングを通じて人間の行動をロボットの行動に変換します。少量のロボット操作デモを使用してモデルを微調整し、EgoVLAと呼ばれるロボットポリシーを取得し、さまざまな両手操作作業を含むIsaac Humanoid Manipulation Benchmarkというシミュレーションベンチマークを提示し、EgoVLAを評価し、従来の方法よりもパフォーマンスを向上させました。