본 논문은 시뮬레이션 기반 휴머노이드 전신 제어(WBC) 정책이 시뮬레이터의 고유한 가정과 한계로 인해 발생하는 sim-to-real 갭 문제를 해결하고자, 여러 이종 시뮬레이터를 함께 사용하여 정책을 학습하는 PolySim이라는 훈련 플랫폼을 제시합니다. PolySim은 여러 시뮬레이터에서 병렬 환경을 동시에 실행하여 동역학 수준의 도메인 무작위화를 실현합니다. 이론적으로는 PolySim이 단일 시뮬레이터 학습보다 시뮬레이터 유도 편향에 대한 더 좁은 상한을 제공함을 보입니다. 실험 결과, PolySim은 sim-to-sim 평가에서 동작 추적 오류를 크게 줄였으며 (예: MuJoCo에서 IsaacSim 기반 대비 52.8%의 성공률 향상), 추가 미세 조정 없이 실제 Unitree G1 로봇에 대한 zero-shot 배포를 가능하게 하여 시뮬레이션에서 실제 환경으로의 효과적인 전송을 입증했습니다.
시사점, 한계점
•
시사점:
◦
다중 시뮬레이터 학습을 통해 sim-to-real 갭 완화.
◦
단일 시뮬레이터 학습에 비해 향상된 성능(sim-to-sim, 실제 로봇 배포).
◦
시뮬레이터 유도 편향에 대한 이론적 분석.
•
한계점:
◦
본 논문에서 다룬 구체적인 시뮬레이터 종류나 사용된 하드웨어에 대한 정보가 부족할 수 있음.