本研究提出了 BenchRL-QAS,这是一个基于强化学习 (RL) 的量子架构搜索 (QAS) 基准测试框架,用于在 2-8 量子比特系统上执行变分量子算法任务。我们系统地评估了九种不同的 RL 代理(包括基于价值的方法和策略梯度方法),评估了它们在变分特征值计算、量子态对角化、变分量子分类 (VQC) 和状态准备等量子问题上的表现,测试环境包括无噪声和有噪声执行设置。为了确保公平比较,我们提出了一个加权排名指标,该指标整合了准确率、电路深度、门数和训练时间。结果表明,没有一种 RL 方法能够普遍优于其他方法,并且性能会因任务类型、量子比特数和噪声条件而异。这有力地支持了 RL-QAS 中“没有免费午餐”的原则。此外,我们观察到,在基于 RL 的 VQC 中,精心挑选的 RL 算法的表现优于基准 VQC。 BenchRL-QAS 为基于 RL 的 QAS 建立了迄今为止最全面的基准,并且代码和实验均公开提供,以供重复和未来开发。