TensorRL-QAS는 텐서 네트워크(TN) 방법과 강화 학습(RL)을 결합하여 양자 회로 설계를 자동화하는 확장 가능한 프레임워크입니다. 기존 RL 기반 양자 아키텍처 탐색(QAS) 방법의 확장성 문제를 해결하기 위해, 목표 솔루션의 행렬 곱 상태(MPS) 근사를 사용하여 탐색 공간을 효과적으로 축소합니다. 최대 12-qubit의 양자 화학 문제에 대한 테스트 결과, 기준 방법에 비해 CNOT 개수 및 회로 깊이를 최대 10배까지 줄이고, 화학적 정확도를 유지하거나 능가하는 성능을 보였습니다. 함수 평가 횟수는 최대 100배 감소하고, 학습 에피소드는 최대 98% 단축되었으며, 10-qubit 시스템에서 최대 50%의 성공 확률을 달성했습니다 (기준 방법은 1% 미만). 잡음이 없는 시나리오와 잡음이 있는 시나리오(최대 8-qubit 시뮬레이션) 모두에서 강건성과 다양성을 입증했습니다.