Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Spatiotemporal Forecasting as Planning: A Model-Based Reinforcement Learning Approach with Generative World Models

Created by
  • Haebom

作者

Hao Wu, Yuan Gao, Xingjian Shi, Shuaipeng Li, Fan Xu, Fan Zhang, Zhihong Zhu, Weiyan Wang, Xiao Luo, Kun Wang, Xian Wu, Xiaomeng Huang

概要

本論文は、物理時空間予測の固有の確率性と非分化可能な指標という二重の課題を解決するために、モデルベースの強化学習に基づく新しいパラダイムであるSpatiotemporal Forecasting as Planning(SFP)を提案する。 SFPは、さまざまな高品質の将来の状態をシミュレートする新しい生成型世界モデルを構築し、「想像ベース」の環境シミュレーションを可能にします。このフレームワーク内で、基本予測モデルはビームサーチベースの計画アルゴリズムによって導かれるエージェントとして機能し、それは非分化可能なドメインメトリックを補償信号として利用して高い報酬の将来のシーケンスを探索します。このように識別された高い報酬候補は、反復的な自己学習を通じてエージェントのポリシーを継続的に最適化するための疑似ラベルとして使用され、これは予測誤差を大幅に減らし、極端なイベント捕捉などの重要なドメインメトリックで優れたパフォーマンスを示しています。

Takeaways、Limitations

Takeaways:
モデルベースの強化学習を活用して確率的で非分化可能なメトリック問題を解決する新しいパラダイム提示
生成型世界モデルによる「想像ベース」環境シミュレーションの実装
ビームサーチに基づく計画アルゴリズムと非分化可能なドメインメトリックを利用した高補償シーケンス探索
反復的な自己学習によるエージェントポリシーの最適化
極端な事象捕捉など、コアドメインメトリックで優れた性能実証。
Limitations:
具体的なLimitationsは論文の内容に記載されていません。 (Abstractのみで判断)
👍