Olaf-World: Orienting Latent Actions for Video World Modeling

Author

Haebom

저자

Yuxin Jiang, Yuchao Gu, Ivor W. Tsang, Mike Zheng Shou

💡 개요

본 논문은 레이턴트 액션(latent action) 학습의 고질적인 문제인 컨텍스트 간 전이 실패를 해결하기 위해, 관찰 가능한 행동 효과를 활용하여 레이턴트 액션을 정렬하는 새로운 방법론인 Seq$\Delta$-REPA를 제안합니다. 제안된 Olaf-World 파이프라인은 대규모 비디오 데이터에서 사전 학습된 액션 제어 비디오 월드 모델을 구축하며, 이는 기존 방법론 대비 제로샷 액션 전이 성능과 새로운 제어 인터페이스 적응 효율성을 크게 향상시킵니다.

🔑 시사점 및 한계

•

행동 레이블 없이도 비디오 영상에서 의미론적으로 유용한 제어 가능한 액션 표현을 학습할 수 있습니다.

•

제안된 방법은 다양한 컨텍스트에서 학습된 레이턴트 액션의 일관성을 높여 전이 학습 성능을 크게 개선합니다.

•

학습된 레이턴트 액션 공간이 얼마나 더 풍부하고 세분화될 수 있는지, 또는 복잡한 동적 환경에서의 성능은 어떠한지에 대한 추가적인 연구가 필요합니다.

PDF 보기

Made with Slashpage