로봇의 모방 학습에서 시뮬레이션과 실제 하드웨어에서 생성된 데모 데이터를 사용한 공동 훈련은 sim2real 격차를 극복하는 강력한 방법으로 떠올랐습니다. 본 연구는 시뮬레이션 설계, 시뮬레이션 및 실제 데이터셋 생성, 정책 훈련에 도움이 되는 이러한 시뮬레이션 및 실제 공동 훈련의 기본 원리를 밝히고자 합니다. 카메라 입력으로부터 평면 푸시라는 기본적인 작업에 집중하여 연구를 철저하게 수행했습니다. 실험 결과, 특히 실제 데이터가 제한적인 경우 시뮬레이션 데이터를 사용한 공동 훈련이 실제 환경에서 성능을 크게 향상시킬 수 있음을 확인했습니다. 성능 향상은 시뮬레이션 데이터의 양에 따라 증가하지만 결국에는 정체됩니다. 실제 데이터는 이러한 성능 상한선을 높입니다. 또한 결과는 비잡는 조작 작업의 경우 시각적 충실도보다 물리적 도메인 격차를 줄이는 것이 더 중요할 수 있음을 시사합니다. 다소 놀랍게도, 어느 정도의 시각적 도메인 격차가 공동 훈련된 정책에 실제로 도움이 됩니다. 이진 프로브는 고성능 정책이 시뮬레이션 도메인과 실제 도메인을 구별하는 방법을 학습함을 보여줍니다. 시뮬레이션 및 실제 간의 긍정적인 전이를 용이하게 하는 세부 사항과 메커니즘을 조사하여 결론을 내립니다. 총 실험 규모는 40개 이상의 실제 정책(800회 이상의 시험 평가), 200개 이상의 시뮬레이션 정책(40,000회 이상의 시험 평가)에 달합니다.