每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

MG2FlowNet:通过增强型 MCTS 和贪婪控制加速高奖励样本生成

Created by
  • Haebom

作者

朱锐、余轩、张宇东、张晨、王旭、王阳

大纲

生成流网络 (GFlowNets) 是一种强大的工具,它通过从与给定奖励函数成比例的分布中采样,生成具有多样化、高奖励结果的结构化对象。与传统的强化学习 (RL) 方法不同,GFlowNets 旨在通过对整个轨迹分布进行建模来平衡多样性和奖励。这使得它们适用于分子设计和组合优化等领域。然而,现有的 GFlowNets 采样策略往往会导致过度探索,并且难以持续生成高奖励样本,尤其是在高奖励区域稀疏的大型探索空间中。在本研究中,我们将增强型蒙特卡洛树搜索 (MCTS) 集成到 GFlowNets 采样过程中,通过基于 MCTS 的策略评估来诱导高奖励轨迹的生成。我们使用多项式上置信树 (PUCT) 自适应地平衡探索和利用,并引入可控的贪婪机制。我们的方法在不牺牲多样性的情况下动态平衡探索和基于奖励的引导,从而增强利用。

Takeaways, Limitations

将 MCTS 集成到 GFlowNet 采样中,以诱导高奖励轨迹的生成并平衡探索和利用。
通过引入控制贪婪程度的机制,动态调整探索和利用之间的平衡。
更快地发现高奖励区域,并在不断生成高奖励样本的同时保持生成分布的多样性。
(论文中没有明确提及Limitations)
👍