본 논문은 장기 비디오 생성 모델의 세계 모델링 능력 향상에 초점을 맞추고 있습니다. 현존하는 모델들은 누적 오류와 부족한 메모리 메커니즘으로 인해 장기적인 시공간 일관성을 유지하는 데 어려움을 겪습니다. 이를 해결하기 위해, 본 논문은 추가적인 액션 조건화와 자기회귀 프레임워크를 통해 상호작용 기능을 향상시킨 이미지-비디오 모델을 제시합니다. 자기회귀 비디오 생성에서 누적 오류는 본질적으로 감소시킬 수 없다는 점을 밝히고, 부족한 메모리 메커니즘이 세계 모델의 비일관성으로 이어진다는 것을 보여줍니다. 따라서 명시적인 전역 상태 조건화를 사용하는 비디오 검색 증강 생성(VRAG)을 제안하여 장기간 누적 오류를 크게 줄이고 시공간 일관성을 높입니다. 확장된 컨텍스트 윈도우를 사용한 단순한 자기회귀 생성 및 검색 증강 생성은 현재 비디오 모델의 제한된 맥락 내 학습 능력으로 인해 효과가 떨어짐을 보여줍니다. 본 연구는 비디오 세계 모델의 근본적인 문제점을 밝히고 내부 세계 모델링 기능을 갖춘 비디오 생성 모델을 개선하기 위한 포괄적인 벤치마크를 구축합니다.