每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

混合量子-经典策略梯度用于信息物理系统自适应控制:VQC 与 MLP 的比较研究

Created by
  • Haebom

作者

Aueaphum Aueawatthanaphisut, Nyi Wunna Tun

大纲

我们对经典强化学习和量子强化学习 (QRL) 范式进行了比较评估,考察了它们的收敛行为、对观测噪声的鲁棒性以及在基准控制环境中的计算效率。我们使用多层感知器 (MLP) 代理作为经典基线,以参数化变分量子电路 (VQC) 作为其量子对应物,在 CartPole-v1 环境中对算法进行了 500 次训练。经典 MLP 实现了接近最优的策略收敛,平均回报率为 498.7 ± 3.2,并在整个训练过程中保持了稳定的平衡。相比之下,VQC 的平均回报率为 14.6 ± 4.8,学习能力有限,主要受电路深度和量子比特连通性限制。噪声鲁棒性分析表明,在高斯扰动下,MLP 策略逐渐恶化,而 VQC 对相同噪声水平表现出更高的敏感性。尽管渐近性能较低,但 VQC 显示出对低资源量子处理器的可扩展性,其参数数量明显较少,训练时间略有增加。

Takeaways, Limitations

经典MLP在CartPole-v1环境中实现了接近最优的性能,表现出优异的收敛能力和抗噪鲁棒性。
由于硬件限制,VQC 目前的学习性能有限。
VQC 的参数数量较少,因此可能适用于低资源量子处理器。
VQC对噪声比较敏感,需要改进硬件抗噪声性能。
本研究仅限于特定环境,需要在更复杂的环境中进行性能评估。
需要提高VQC的表达能力和量子电路结构。
👍