本研究聚焦于人机参与学习,旨在通过人为干预来监控和纠正智能体的行为错误。为了克服现有方法在当前状态下纠正智能体行为的局限性,我们提出了基于人为干预的预测偏好学习 (PPL),以改进未来状态下的行为预测。PPL 利用人为干预中固有的偏好信号来预测未来的部署,并通过建立偏好范围 (L) 将每次人为干预引导到 L 个未来时间步。这提高了安全关键领域的学习效率,并减少了对人为演示的需求。我们的效率和泛化能力已通过自动驾驶和机器人操控的基准实验得到验证,理论分析表明,选择合适的偏好范围 (L) 可以限制算法的最优性差距。