Vision-centric hierarchical embodied 모델의 한계를 보완하기 위해, 명시적인 공간 모델링과 추론을 통해 시각적 계획을 실행 가능한 제어로 연결하는 Spatial Policy (SP) 프레임워크를 제안합니다. SP는 공간 계획 테이블을 통해 공간적으로 유도된 예측을 모델링하는 공간 조건부 구체화된 비디오 생성 모듈, 실행 가능한 동작을 추론하는 흐름 기반 동작 예측 모듈, 이중 단계 재계획을 통해 공간 계획 테이블을 개선하는 공간 추론 피드백 정책으로 구성됩니다. Meta-World에서 33% 이상, iTHOR에서 25% 이상 성능 향상을 보였으며, 실제 로봇 실험을 통해 실용성을 검증했습니다.
시사점, 한계점
•
시사점:
◦
공간 인식 능력을 통합하여 복잡한 환경에서 시각적 계획을 실행 가능한 제어로 연결하는 새로운 프레임워크 제시.
◦
다양한 환경에서 SOTA 성능 달성, 로봇 제어의 실용성 입증.
◦
Code 및 checkpoints 공개로 재현 가능성 확보.
•
한계점:
◦
논문 내 한계점에 대한 언급 없음. (Abstract 내에서는 구체적인 한계점을 찾을 수 없음)