Spatiotemporal Forecasting as Planning: A Model-Based Reinforcement Learning Approach with Generative World Models
Created by
Haebom
저자
Hao Wu, Yuan Gao, Xingjian Shi, Shuaipeng Li, Fan Xu, Fan Zhang, Zhihong Zhu, Weiyan Wang, Xiao Luo, Kun Wang, Xian Wu, Xiaomeng Huang
Spatiotemporal Forecasting as Planning (SFP)
개요
본 논문은 물리적 시공간 예측에서 발생하는 고유한 확률성 및 비미분 가능 메트릭 문제를 해결하기 위해 Model-Based 강화 학습에 기반한 새로운 패러다임인 Spatiotemporal Forecasting as Planning (SFP)을 제안합니다. SFP는 다양한 고품질 미래 상태를 시뮬레이션하는 새로운 생성적 세계 모델을 구축하여 "상상 기반" 환경 시뮬레이션을 가능하게 합니다. 이 프레임워크 내에서 기본 예측 모델은 에이전트 역할을 하며, 비미분 가능 도메인 메트릭을 보상 신호로 활용하여 높은 수익을 창출하는 미래 시퀀스를 탐색하는 빔 서치 기반 계획 알고리즘에 의해 안내됩니다. 식별된 고수익 후보는 반복적인 자체 학습을 통해 에이전트의 정책을 지속적으로 최적화하기 위한 유사 레이블로 사용되어, 예측 오류를 크게 줄이고 극심한 이벤트 포착과 같은 중요한 도메인 메트릭에서 뛰어난 성능을 보여줍니다.