본 논문은 복잡한 기술을 가르치기 위해 인간 동작을 재매개변수화하여 강화 학습(RL) 정책을 훈련하는 기존 방식의 문제점을 해결하고자 합니다. 특히, 인간과 로봇 사이의 신체적 차이로 인한 문제와, 표현력 있는 이동과 로코-조작에 필수적인 인간-객체 및 인간-환경 상호작용의 무시를 지적합니다. OmniRetarget은 상호작용 메시를 기반으로, 에이전트, 지형 및 조작된 객체 간의 공간적 및 접촉 관계를 명시적으로 모델링하고 보존하는 데이터 생성 엔진입니다. Laplacian 변형을 최소화하고 운동학적 제약 조건을 적용하여, OmniRetarget은 운동학적으로 실행 가능한 궤적을 생성합니다. 또한, 작업 관련 상호작용을 보존함으로써 단일 데모로부터 다양한 로봇 신체, 지형 및 객체 구성에 대한 효율적인 데이터 확장을 가능하게 합니다. OMOMO, LAFAN1, 자체 모션 캡처 데이터셋으로부터의 동작을 재매개변수화하여 8시간 이상의 궤적을 생성, 널리 사용되는 기준선보다 더 나은 운동학적 제약 조건 만족과 접촉 보존을 달성했습니다. 이러한 고품질 데이터를 통해, 자기수용적 RL 정책은 단 5개의 보상 항과 모든 작업에서 공유되는 간단한 도메인 무작위화만으로, Unitree G1 휴머노이드에서 최대 30초의 장기적인 파쿠르 및 로코-조작 기술을 성공적으로 수행할 수 있습니다.