Jonathan Richens, David Abel, Alexis Bellot, Tom Everitt
개요
본 논문은 유연하고 목표 지향적인 행동에 대한 세계 모델의 필요성 여부를 형식적으로 규명합니다. 다단계 목표 지향적 과제에 일반화할 수 있는 모든 에이전트는 환경에 대한 예측 모델을 학습해야 함을 보여줍니다. 이 모델은 에이전트의 정책에서 추출할 수 있으며, 에이전트의 성능 향상이나 달성 가능한 목표의 복잡성 증가는 점점 더 정확한 세계 모델 학습을 필요로 함을 증명합니다.