在训练强化学习智能体时,如果任务目标难以用密集奖励函数指定,人工反馈至关重要。现有方法依赖于离线轨迹比较来获取人工偏好,但在智能体必须动态调整的在线学习场景中,此类数据难以获取。在本研究中,我们提出了 Pref-GUIDE 框架,该框架将实时标量反馈转换为基于偏好的数据,以改进奖励模型学习,从而实现持续策略训练。Pref-GUIDE 通过将实时标量反馈转换为基于偏好的数据来改进奖励模型学习。Pref-GUIDE Individual 通过比较短窗口内的智能体动作并过滤掉模糊反馈来缓解时间不一致性。Pref-GUIDE Voting 通过聚合来自多个用户的奖励模型以形成共识偏好,进一步增强了鲁棒性。在三个具有挑战性的环境中,Pref-GUIDE 的表现显著优于标量反馈基准,其投票变体甚至优于专家设计的密集奖励。通过将标量反馈转化为结构化偏好并利用群体反馈,Pref-GUIDE 提供了一种可扩展且有原则的方法来利用在线强化学习中的人类输入。