본 논문은 자율 주행과 같은 분야에서 필수적인 능력인 '예지력'을 정의하고, 이를 평가하기 위한 새로운 Visual Question-Answering (VQA) 데이터셋인 FSU-QA를 소개한다. FSU-QA를 사용하여 최첨단 Vision-Language Models (VLMs)의 예지력 관련 성능을 평가하고, 현재 모델들이 미래 상황에 대한 추론에 어려움을 겪고 있음을 밝힌다. 또한, FSU-QA가 세계 모델의 평가 및 성능 향상에 기여할 수 있으며, 작은 규모의 VLM 모델도 FSU-QA를 통해 훈련될 경우 더 큰 규모의 모델보다 뛰어난 성능을 보일 수 있음을 실험적으로 증명한다. 결론적으로, FSU-QA는 미래 사건을 예측하고 이해하는 차세대 모델 개발을 위한 기반을 제공한다.