每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

从学习到精通:通过人机协同强化学习实现安全高效的现实世界自动驾驶

Created by
  • Haebom

作者

李泽桥、王艺静、王浩宇、李政、李鹏、刘文飞、左志强

大纲

为了应对基于强化学习的自动驾驶在实际应用中面临的挑战,本文提出了一种利用人类专家知识进行安全、高效且稳健学习的方法。我们提出了一种名为“人为引导的分布式软行为者-评论家”(H-DSAC)的无奖励、主动的人类参与学习方法,该方法结合了代理值传播(PVP)和分布式软行为者-评论家(DSAC),从而能够在实际环境中实现高效安全的学习。其关键创新在于在DSAC框架内构建了一个分布式代理值函数。该函数通过为专家演示分配高预期回报并惩罚需要人为干预的行为来编码人类意图。通过将这些标签扩展到未标记的状态,可以有效地引导策略向类似专家的行为发展。通过设计的状态空间,我们在实际的训练时间内实现了实用的自动驾驶策略学习。仿真和实验结果表明,所提出的框架能够实现安全、稳健且样本高效的自动驾驶学习。

Takeaways, Limitations

Takeaways:
利用人类专家的知识来提高自动驾驶系统的安全性、效率和稳健性。
我们提出了 H-DSAC 方法,它结合了代理值传播 (PVP) 和分布式软演员-评论家 (DSAC)。
证明了在现实环境中的实际训练时间内学习自动驾驶策略的可行性。
通过模拟和实际实验验证该方法的有效性。
Limitations:
论文中没有具体说明Limitations。(需要进一步研究。)
缺乏有关具体状态空间设计的信息。
需要进一步研究各种现实环境中的泛化性能。
👍