Whole-Body Conditioned Egocentric Video Prediction
Created by
Haebom
저자
Yutong Bai, Danny Tran, Amir Bar, Yann LeCun, Trevor Darrell, Jitendra Malik
개요
본 논문은 과거 비디오와 상대적인 3D 신체 자세로 표현된 행동을 바탕으로 인간 행동에서 자기중심적 비디오를 예측하는 모델(PEVA)을 훈련하는 방법을 제시합니다. 신체의 관절 계층 구조에 의해 구조화된 운동학적 자세 궤적을 조건으로 하여, 모델은 물리적 인간 행동이 1인칭 관점에서 환경을 어떻게 형성하는지 시뮬레이션하는 것을 학습합니다. 대규모 실제 세계 자기중심 비디오 및 신체 자세 캡처 데이터셋인 Nymeria를 사용하여 자기회귀 조건부 확산 변환기를 훈련합니다. 또한 점점 더 어려운 작업으로 계층적 평가 프로토콜을 설계하여 모델의 구현된 예측 및 제어 능력에 대한 포괄적인 분석을 가능하게 합니다. 본 연구는 인간의 관점에서 비디오 예측을 통해 복잡한 실제 세계 환경과 구현된 에이전트 행동을 모델링하는 과제에 대한 초기 시도를 나타냅니다.