Generative Flow Networks (GFlowNets)는 주어진 보상 함수에 비례하는 분포에서 샘플링하여 다양하고 높은 보상을 갖는 구조화된 객체를 생성하는 데 사용되는 강력한 도구입니다. 기존의 강화 학습(RL) 접근 방식과는 달리 GFlowNets는 전체 궤적 분포를 모델링하여 다양성과 보상의 균형을 맞추는 것을 목표로 합니다. 분자 설계 및 조합 최적화와 같은 도메인에 적합합니다. 그러나 기존 GFlowNets 샘플링 전략은 과도한 탐색을 수행하고, 특히 희소한 고보상 영역이 있는 큰 탐색 공간에서 높은 보상을 받는 샘플을 일관되게 생성하는 데 어려움을 겪습니다. 본 연구에서는 향상된 몬테카를로 트리 탐색(MCTS)을 GFlowNets 샘플링 프로세스에 통합하여, MCTS 기반 정책 평가를 통해 높은 보상 궤적으로의 생성을 유도하고, Polynomial Upper Confidence Trees (PUCT)를 사용하여 탐색과 활용을 적응적으로 균형을 맞추며, 탐욕의 정도를 조절하는 제어 가능한 메커니즘을 도입합니다. 본 연구의 방법은 다양성을 희생하지 않으면서 탐색과 보상 기반 안내를 동적으로 균형을 맞춤으로써 활용을 향상시킵니다.