生成流网络 (GFlowNets) 是一种强大的工具,它通过从与给定奖励函数成比例的分布中采样,生成具有多样化、高奖励结果的结构化对象。与传统的强化学习 (RL) 方法不同,GFlowNets 旨在通过对整个轨迹分布进行建模来平衡多样性和奖励。这使得它们适用于分子设计和组合优化等领域。然而,现有的 GFlowNets 采样策略往往会导致过度探索,并且难以持续生成高奖励样本,尤其是在高奖励区域稀疏的大型探索空间中。在本研究中,我们将增强型蒙特卡洛树搜索 (MCTS) 集成到 GFlowNets 采样过程中,通过基于 MCTS 的策略评估来诱导高奖励轨迹的生成。我们使用多项式上置信树 (PUCT) 自适应地平衡探索和利用,并引入可控的贪婪机制。我们的方法在不牺牲多样性的情况下动态平衡探索和基于奖励的引导,从而增强利用。