Spatiotemporal Forecasting as Planning: A Model-Based Reinforcement Learning Approach with Generative World Models
Created by
Haebom
作者
Hao Wu, Yuan Gao, Xingjian Shi, Shuaipeng Li, Fan Xu, Fan Zhang, Zhihong Zhu, Weiyan Wang, Xiao Luo, Kun Wang, Xian Wu, Xiaomeng Huang
概要
本論文は、物理時空間予測の固有の確率性と非分化可能な指標という二重の課題を解決するために、モデルベースの強化学習に基づく新しいパラダイムであるSpatiotemporal Forecasting as Planning(SFP)を提案する。 SFPは、さまざまな高品質の将来の状態をシミュレートする新しい生成型世界モデルを構築し、「想像ベース」の環境シミュレーションを可能にします。このフレームワーク内で、基本予測モデルはビームサーチベースの計画アルゴリズムによって導かれるエージェントとして機能し、それは非分化可能なドメインメトリックを補償信号として利用して高い報酬の将来のシーケンスを探索します。このように識別された高い報酬候補は、反復的な自己学習を通じてエージェントのポリシーを継続的に最適化するための疑似ラベルとして使用され、これは予測誤差を大幅に減らし、極端なイベント捕捉などの重要なドメインメトリックで優れたパフォーマンスを示しています。