AirScape는 3차원 공간에서 에이전트가 자신의 움직임 의도를 예측할 수 있도록 설계된 최초의 월드 모델입니다. 현재 시각적 입력과 움직임 의도를 기반으로 미래 관찰 시퀀스를 예측합니다. 11,000개의 비디오-의도 쌍으로 구성된 드론 동작 데이터 세트를 활용하여, 다양한 시나리오에서 드론의 1인칭 시점 비디오와 움직임 의도를 주석 처리했습니다. AirScape는 기초 모델을 훈련하기 위한 두 단계 일정을 개발하여 움직임 의도로 제어 가능하고 물리적 시공간 제약 조건을 준수하는 월드 모델로 만듭니다. 실험 결과는 AirScape가 3D 공간 상상력에서 기존 기초 모델보다 훨씬 뛰어나고, 특히 움직임 정렬 지표에서 50% 이상 향상됨을 보여줍니다.