本文提出了一个多保真策略梯度 (MFPG) 框架,以应对强化学习 (RL) 算法面临的挑战,这些算法难以应对现实世界部署所需的海量数据或昂贵的模拟训练。MFPG 通过将少量目标环境数据与来自低质量模拟数据的控制变量相结合,为在线策略 (on-policy) 的策略梯度构建了一个无偏方差降低估计器。具体而言,它实现了经典 REINFORCE 算法的多保真变体,确保在标准假设下 REINFORCE 在目标环境中渐近收敛,并且比仅使用高质量数据进行训练时实现更快的有限样本收敛。MFPG 在模拟机器人基准测试中进行了评估,尽管其简单易用且调优开销极小,但仍展现出卓越的性能,能够充分利用有限的高质量数据和丰富的低质量数据。此外,MFPG 即使在低质量、无奖励的环境中也表现出色,提高了模拟到现实的迁移效率,并在策略性能和数据收集成本之间实现了权衡。