양자 컴퓨팅 및 양자 센싱 분야의 발전에 따라 양자 네트워크의 중요성이 증가하고 있습니다. 양자 네트워크에서 얽힘 라우팅은 높은 동적 특성과 확률적 특성으로 인해 여러 과제를 안고 있습니다. 본 논문에서는 로컬 정보와 반복적인 메시지 교환에만 의존하는 강화 학습 기반의 얽힘 라우팅 방법인 RELiQ를 제안합니다. 그래프 신경망을 활용하여 특정 네트워크 토폴로지에 대한 과적합을 방지하고, 무작위 그래프에서 훈련된 RELiQ는 무작위 및 실제 토폴로지에서 기존의 로컬 정보 기반 휴리스틱 및 학습 기반 접근 방식보다 일관되게 우수한 성능을 보입니다. 또한, 글로벌 정보 기반 휴리스틱과 비교하여 토폴로지 변화에 대한 빠른 반응으로 유사하거나 더 나은 성능을 달성합니다.