为了应对基于强化学习的自动驾驶在实际应用中面临的挑战,本文提出了一种利用人类专家知识进行安全、高效且稳健学习的方法。我们提出了一种名为“人为引导的分布式软行为者-评论家”(H-DSAC)的无奖励、主动的人类参与学习方法,该方法结合了代理值传播(PVP)和分布式软行为者-评论家(DSAC),从而能够在实际环境中实现高效安全的学习。其关键创新在于在DSAC框架内构建了一个分布式代理值函数。该函数通过为专家演示分配高预期回报并惩罚需要人为干预的行为来编码人类意图。通过将这些标签扩展到未标记的状态,可以有效地引导策略向类似专家的行为发展。通过设计的状态空间,我们在实际的训练时间内实现了实用的自动驾驶策略学习。仿真和实验结果表明,所提出的框架能够实现安全、稳健且样本高效的自动驾驶学习。