본 논문은 임의의 Pauli 회전과 Clifford 연산을 포함하는 양자 회로의 재합성을 위한 강화 학습(RL) 기반 방법을 제시합니다. 각 하위 블록을 압축된 표현으로 축소한 후 학습된 휴리스틱을 통해 단계별로 합성하여 하드웨어 연결 제약 조건을 준수하는 더 짧은 회로를 얻습니다. 6-qubit 임의 Pauli 네트워크에서 최첨단 휴리스틱 방법과 직접 비교한 결과, 본 방법은 2-qubit 게이트 수를 2배 이상 줄이면서 회로당 10밀리초 이내에 실행되는 것으로 나타났습니다. 또한, Qiskit 트랜스파일러 패스로 적용된 수집 및 재합성 파이프라인에 본 방법을 통합하여 Benchpress 벤치마크에서 평균 20%의 2-qubit 게이트 수 및 깊이 개선을 관찰했으며, 많은 경우 최대 60%까지 개선되었습니다. 이러한 결과는 RL 기반 합성이 현실적인 대규모 양자 트랜스파일 작업에서 회로 품질을 크게 향상시킬 수 있는 잠재력을 보여줍니다.