본 논문은 레이턴트 액션(latent action) 학습의 고질적인 문제인 컨텍스트 간 전이 실패를 해결하기 위해, 관찰 가능한 행동 효과를 활용하여 레이턴트 액션을 정렬하는 새로운 방법론인 Seq$\Delta$-REPA를 제안합니다. 제안된 Olaf-World 파이프라인은 대규모 비디오 데이터에서 사전 학습된 액션 제어 비디오 월드 모델을 구축하며, 이는 기존 방법론 대비 제로샷 액션 전이 성능과 새로운 제어 인터페이스 적응 효율성을 크게 향상시킵니다.