본 논문은 대규모 몸체 상호작용 데이터에 대한 의존성이라는 주요 병목 현상을 해결하기 위해, 제한된 짧은 시간 지평선에 초점을 맞춘 새로운 세계 모델링 패러다임인 Primitive Embodied World Models (PEWM)을 제안합니다. PEWM은 고정된 짧은 시간 지평선에서 비디오 생성을 제한함으로써 언어적 개념과 로봇 동작의 시각적 표현 간의 미세 조정된 정렬을 가능하게 하고, 학습 복잡성을 줄이며, 몸체 데이터 수집의 데이터 효율성을 개선하고, 추론 지연 시간을 단축합니다. 모듈식 Vision-Language Model (VLM) 플래너와 Start-Goal heatmap Guidance mechanism (SGG)을 갖춤으로써, PEWM은 유연한 폐쇄 루프 제어를 가능하게 하고, 복잡한 작업에 걸쳐 기본 수준 정책의 구성적 일반화를 지원합니다. 결과적으로, PEWM은 미세 조정된 물리적 상호 작용과 고차원 추론 간의 간극을 해소하여 확장 가능하고, 해석 가능하며, 범용적인 몸체 지능으로 향하는 길을 열어줍니다.
시사점, 한계점
•
시사점:
◦
몸체 데이터의 제한된 크기 및 수집의 어려움을 완화합니다.
◦
언어와 행동 간의 미세 조정된 정렬을 가능하게 합니다.
◦
학습 복잡성 및 추론 지연 시간을 감소시킵니다.
◦
폐쇄 루프 제어와 기본 수준 정책의 구성적 일반화를 지원합니다.
◦
확장 가능하고, 해석 가능하며, 범용적인 몸체 지능을 위한 새로운 패러다임을 제시합니다.
•
한계점:
◦
고정된 짧은 시간 지평선에 대한 의존성으로 인해 장기적인 비디오 생성에는 제한이 있을 수 있습니다.