本論文は、量子変動アルゴリズムが中規模の量子ハードウェアで意味のある問題を解決する可能性があるが、回路設計の困難を経験することに注目する。特に、量子アーキテクチャ検索(QAS)のための強化学習(RL)ベースの方法のスケーラビリティの問題を解決するために、テンソルネットワーク方法をRLと組み合わせた新しいフレームワークである$ \ textit {TensorRL-QAS} $を提案します。このフレームワークは、目標解決策の行列積状態(MPS)近似でQASを開始して探索スペースを減らし、物理的に意味のある回路への収束を加速します。 TensorRL-QASは、最大12qubitの量子化学問題に適用され、従来の方法と比較してCNOTの数と回路深さを最大10倍に減らし、化学精度を維持または上回ります。また、クラシックオプティマイザの関数評価を最大100倍に減らし、トレーニングエピソードを最大98%まで加速し、10-qubitシステムで50%の成功確率を達成するなど、既存の方法の低い性能を大幅に改善する。無雑音と雑音のシナリオで堅牢性と多用途性を実証し、20qubitシステムまで拡張可能性を示した。