本文介绍了一个名为 PolySim 的训练平台,该平台使用多个异构模拟器训练策略,以解决基于模拟的人形全身控制 (WBC) 策略中由于模拟器固有假设和局限性而产生的模拟与现实差距问题。PolySim 通过在多个模拟器上同时运行并行环境来实现动态级域随机化。理论上,我们证明了 PolySim 比单模拟器训练对模拟器引起的偏差提供了更严格的上限。实验结果表明,PolySim 显著降低了模拟到模拟评估中的运动跟踪误差(例如,在 MuJoCo 上,与基于 IsaacSim 的方法相比,成功率提高了 52.8%),并且无需额外微调即可在真实的 Unitree G1 机器人上进行零样本部署,展现了从模拟到现实环境的有效迁移。