비디오 생성 기반의 임베디드 월드 모델은 많은 관심을 받고 있지만, 대규모 임베디드 상호 작용 데이터에 대한 의존성이 주요 병목 현상으로 남아있습니다. 이에 본 논문은 원시 동작의 다양성이 가능한 원시 동작의 상대적으로 작은 공간을 훨씬 초과한다는 관찰을 바탕으로, Primitive Embodied World Models (PEWM)이라는 새로운 월드 모델링 패러다임을 제안합니다. 이 모델은 고정된 짧은 수평선으로 비디오 생성을 제한하여, 언어적 개념과 로봇 동작의 시각적 표현 간의 미세한 정렬을 가능하게 하고, 학습 복잡성을 줄이며, 임베디드 데이터 수집의 데이터 효율성을 개선하고, 추론 지연 시간을 감소시킵니다. 또한 모듈식 비전-언어 모델(VLM) 플래너와 Start-Goal heatmap Guidance 메커니즘(SGG)을 갖춰, PEWM은 유연한 폐쇄 루프 제어를 가능하게 하고, 확장되고 복잡한 작업에 대한 원시 수준 정책의 구성적 일반화를 지원합니다.
시사점, 한계점
•
시사점:
◦
언어적 개념과 로봇 동작의 미세한 정렬을 가능하게 함.
◦
학습 복잡성 감소.
◦
임베디드 데이터 수집의 데이터 효율성 향상.
◦
추론 지연 시간 감소.
◦
유연한 폐쇄 루프 제어 지원.
◦
원시 수준 정책의 구성적 일반화 지원.
◦
미세한 물리적 상호 작용과 고차원적 추론 사이의 격차를 해소하여 확장 가능하고 해석 가능하며 일반적인 임베디드 지능을 위한 길을 제시함.
•
한계점:
◦
논문에 구체적인 한계점은 명시되지 않음. (제안된 방법론의 잠재적 한계는 추후 연구를 통해 밝혀질 수 있음)