본 논문은 베이지안 네트워크(BN)의 구조 학습을 위한 강화 학습 기반 알고리즘인 RLBayes를 제안합니다. 기존의 점수 기반 BN 구조 학습은 변수 수 증가에 따라 지수적으로 증가하는 탐색 공간으로 인해 NP-hard 문제이며, 만족스러운 결과를 얻기 어렵습니다. RLBayes는 Q-learning의 아이디어를 차용하여 동적으로 유지되는 Q-테이블을 통해 탐색 과정을 기록하고 안내합니다. 이를 통해 제한된 공간 내에서 무한한 탐색 공간을 저장하고 Q-learning을 통해 BN 구조 학습을 수행합니다. 이론적으로 RLBayes가 전역 최적 BN 구조에 수렴함을 증명하고, 실험적으로 기존 휴리스틱 탐색 알고리즘보다 우수한 성능을 보임을 입증합니다.