본 연구는 2~8 큐비트 시스템에서 변분 양자 알고리즘 작업을 위한 강화 학습(RL) 기반 양자 아키텍처 검색(QAS) 벤치마킹 프레임워크인 BenchRL-QAS를 제시합니다. 본 연구는 변분 고유값 계산, 양자 상태 대각화, 변분 양자 분류(VQC), 상태 준비 등과 같은 양자 문제에 대해 가치 기반 및 정책 기울기 방법을 포함한 9가지 다른 RL 에이전트를 무잡음 및 잡음 있는 실행 설정에서 체계적으로 평가합니다. 공정한 비교를 위해 정확도, 회로 깊이, 게이트 수 및 훈련 시간을 통합하는 가중 순위 메트릭을 제안합니다. 결과는 단일 RL 방법이 보편적으로 우위를 점하지 않으며, 성능은 작업 유형, 큐비트 수 및 노이즈 조건에 따라 달라짐을 보여줍니다. 이는 RL-QAS에서 공짜 점심 정리 없음 원리를 강력하게 뒷받침합니다. 부수적으로 RL 기반 VQC에서 신중하게 선택된 RL 알고리즘이 기준 VQC보다 우수한 성능을 보임을 관찰했습니다. BenchRL-QAS는 지금까지 RL 기반 QAS에 대한 가장 광범위한 벤치마크를 구축하며, 재현성 및 향후 발전을 위해 코드 및 실험을 공개적으로 사용할 수 있습니다.