UniWM은 시각적 탐색에 대한 강력하고 일반화된 성능을 위해 미래 상태를 효과적으로 상상할 수 있도록 하는 데 초점을 맞춘 논문입니다. 현재의 모듈형 아키텍처가 가진 한계를 극복하기 위해, UniWM은 단일 멀티모달 자기회귀 백본 내에서 자아 중심적 시각적 예측과 계획을 통합하는 통합 메모리 보강 월드 모델입니다. 이 모델은 행동 결정을 시각적으로 상상된 결과에 명시적으로 기반하여 예측과 제어 간의 정렬을 보장합니다. 또한, 계층적 메모리 메커니즘을 통해 짧은 기간의 지각 단서와 장기적인 궤적 컨텍스트를 통합하여 확장된 수평선에 걸쳐 안정적이고 일관된 추론을 가능하게 합니다. Go Stanford, ReCon, SCAND, HuRoN 등 4가지 벤치마크에서 최대 30%까지 탐색 성공률을 향상시키고, 강력한 기준선에 비해 궤적 오류를 줄이며, 보이지 않는 TartanDrive 데이터 세트에서 인상적인 제로샷 일반화를 보여줍니다.