Spatiotemporal Forecasting as Planning: A Model-Based Reinforcement Learning Approach with Generative World Models
Created by
Haebom
저자
Hao Wu, Yuan Gao, Xingjian Shi, Shuaipeng Li, Fan Xu, Fan Zhang, Zhihong Zhu, Weiyan Wang, Xiao Luo, Kun Wang, Xian Wu, Xiaomeng Huang
개요
본 논문은 물리적 시공간 예측의 내재적 확률성과 비분화 가능한 메트릭이라는 이중적 과제를 해결하기 위해, 모델 기반 강화 학습에 기반한 새로운 패러다임인 Spatiotemporal Forecasting as Planning (SFP)를 제안한다. SFP는 다양한 고품질 미래 상태를 시뮬레이션하는 새로운 생성형 세계 모델을 구축하여 "상상 기반" 환경 시뮬레이션을 가능하게 한다. 이 프레임워크 내에서, 기본 예측 모델은 빔 서치 기반의 계획 알고리즘에 의해 안내되는 에이전트 역할을 하며, 이는 비분화 가능한 도메인 메트릭을 보상 신호로 활용하여 높은 보상의 미래 시퀀스를 탐색한다. 이렇게 식별된 높은 보상 후보는 반복적인 자체 학습을 통해 에이전트의 정책을 지속적으로 최적화하는 데 의사 레이블로 사용되며, 이는 예측 오류를 크게 줄이고 극심한 사건 포착과 같은 중요한 도메인 메트릭에서 뛰어난 성능을 보여준다.
시사점, 한계점
•
시사점:
◦
모델 기반 강화 학습을 활용하여 확률적이고 비분화 가능한 메트릭 문제를 해결하는 새로운 패러다임 제시.
◦
생성형 세계 모델을 통해 "상상 기반" 환경 시뮬레이션 구현.
◦
빔 서치 기반 계획 알고리즘과 비분화 가능한 도메인 메트릭을 활용하여 높은 보상 시퀀스 탐색.