本稿では、ロボット操作の模倣学習における実際のロボットデータ収集の限界を克服するために、人間の視点で撮影されたビデオデータを活用するVision-Language-Action(VLA)モデルであるEgoVLAを提案します。人間のビデオデータの豊富なシーンと作業情報を活用してVLAモデルを学習し、逆運動学とリターゲティングを通じて人間の行動をロボットの行動に変換します。少量のロボット操作デモを使用してモデルを微調整し、「Ego Humanoid Manipulation Benchmark」と呼ばれるシミュレーションベンチマークを使用して、さまざまな両手操作のパフォーマンスを評価し、従来の方法より優れたパフォーマンスを示すことを実証します.