FutureWorld: A Live Reinforcement Learning Environment for Predictive Agents with Real-World Outcome Rewards

작성자

Haebom

카테고리

Empty

저자

Zhixin Han, Yanzhi Zhang, Chuyang Wei, Maohang Gao, Xiawei Yue, Kefei Chen, Yu Zhuang, Haoxiang Guan, Jiyan He, Jian Li, Yitong Duan, Yu Shi, Mengting Hu, Shuxin Zheng

💡 개요

본 연구는 실제 세계 사건의 미래를 예측하는 '실시간 미래 예측' 문제를 해결하기 위한 새로운 강화학습 환경인 FutureWorld를 제안합니다. FutureWorld는 예측 시점부터 실제 결과 확인 및 모델 업데이트까지의 학습 과정을 연결하며, 지연된 실제 결과 보상을 활용하여 에이전트의 예측 정확도, 확률 점수, 보정 성능을 향상시킵니다.

🔑 시사점 및 한계

•

실제 세계의 지연된 결과를 강화학습 신호로 효과적으로 활용할 수 있음을 보여줍니다.

•

에이전트가 실제 세계 사건을 기반으로 지속적으로 학습할 수 있는 환경을 제공합니다.

•

현재는 세 가지 오픈소스 에이전트에 대한 실험 결과만을 제시하고 있어, 다양한 에이전트 및 실제 적용 시나리오에 대한 추가적인 연구가 필요합니다.

PDF 보기

Made with Slashpage