每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

时空预测作为规划:基于模型的生成世界模型强化学习方法

Created by
  • Haebom

作者

吴浩、高远、石兴建、李帅鹏、徐帆、张帆、朱志宏、王伟彦、罗晓、王坤、吴贤、黄小萌

时空预测规划(SFP)

大纲

本文提出了一种基于模型强化学习的新型范式——时空预测规划(SFP),旨在解决物理时空预测中固有的概率性和不可微度量挑战。SFP 通过构建一个能够模拟各种高质量未来状态的新型生成世界模型,实现“基于想象”的环境模拟。在此框架下,底层预测模型充当智能体,由基于束搜索的规划算法引导,该算法利用不可微领域指标作为奖励信号,探索产生高回报的未来序列。识别出的高回报候选目标被用作伪标签,通过迭代自学习不断优化智能体的策略,显著降低预测误差,并在极端事件捕获等关键领域指标上展现出卓越的性能。

Takeaways, Limitations

Takeaways:
提出了一种解决概率和不可微度量问题的新范式。
使用生成世界模型进行“基于想象”的环境模拟是可能的。
使用基于束搜索的规划算法探索具有高回报的未来序列。
通过迭代自学习优化代理策略。
在极端事件捕获等关键领域指标上取得优异表现。
Limitations:
Limitations 论文中所述的内容并未呈现。
👍