본 논문은 인간의 동작을 모방하여 로봇 조작 정책을 학습하는 새로운 프레임워크인 X-Sim을 제안합니다. 기존의 방법들이 인간과 로봇의 차이로 인해 어려움을 겪는 것과 달리, X-Sim은 RGBD 영상으로부터 사실적인 시뮬레이션 환경을 재구성하고, 물체의 움직임을 기반으로 한 밀도 높은 보상 신호를 사용하여 강화학습(RL) 정책을 학습합니다. 학습된 정책은 다양한 시점과 조명으로 렌더링된 합성 데이터를 사용하여 이미지 조건부 확산 정책으로 증류되고, 실세계 적용을 위해 온라인 도메인 적응 기법을 통해 실제 관측값과 시뮬레이션 관측값을 정렬합니다. 텔레오퍼레이션 데이터 없이도 5가지 조작 작업에서 기존 방법들보다 평균 30% 향상된 성능을 보이며, 데이터 수집 시간을 10배 단축하고, 새로운 카메라 시점과 테스트 시간 변화에도 일반화되는 것을 보여줍니다.