我们对经典强化学习和量子强化学习 (QRL) 范式进行了比较评估,考察了它们的收敛行为、对观测噪声的鲁棒性以及在基准控制环境中的计算效率。我们使用多层感知器 (MLP) 代理作为经典基线,以参数化变分量子电路 (VQC) 作为其量子对应物,在 CartPole-v1 环境中对算法进行了 500 次训练。经典 MLP 实现了接近最优的策略收敛,平均回报率为 498.7 ± 3.2,并在整个训练过程中保持了稳定的平衡。相比之下,VQC 的平均回报率为 14.6 ± 4.8,学习能力有限,主要受电路深度和量子比特连通性限制。噪声鲁棒性分析表明,在高斯扰动下,MLP 策略逐渐恶化,而 VQC 对相同噪声水平表现出更高的敏感性。尽管渐近性能较低,但 VQC 显示出对低资源量子处理器的可扩展性,其参数数量明显较少,训练时间略有增加。