Sign In

Object-Centric World Model for Language-Guided Manipulation

Created by
  • Haebom
Category
Empty

저자

Youngjoon Jeong, Junha Chun, Soonwoo Cha, Taesup Kim

개요

본 논문은 자율주행 및 로봇공학과 같은 분야에서 미래를 예측하고 계획을 세우기 위한 에이전트의 필수 요소인 세계 모델을 제안합니다. 기존의 비디오 생성 기반 세계 모델은 계산 자원이 많이 필요하다는 한계를 가지고 있는데, 본 논문에서는 슬롯 어텐션을 사용하여 객체 중심 표현 공간을 활용하는 세계 모델을 제시합니다. 자연어 명령어에 따라 현재 상태를 객체 중심 표현으로 인식하고, 이 표현 공간에서 미래 상태를 예측합니다. 이는 확산 모델 기반 생성 모델보다 더욱 효율적이며, 객체 인식이 중요한 조작 작업에서 유연성을 제공합니다. 실험 결과, 제안된 잠재 예측 세계 모델은 시각-언어-운동 제어 작업에서 생성적 세계 모델보다 우수한 샘플 및 계산 효율성을 달성함을 보여줍니다. 또한, 제안된 방법의 일반화 성능을 조사하고 객체 중심 표현을 사용하여 행동을 예측하기 위한 다양한 전략을 탐구합니다.

시사점, 한계점

시사점:
객체 중심 표현을 활용하여 계산 효율성을 높인 세계 모델을 제시.
자연어 명령어에 기반한 유연한 미래 상태 예측 가능.
시각-언어-운동 제어 작업에서 기존 생성적 모델보다 우수한 성능을 달성.
객체 인식이 중요한 조작 작업에 유리.
한계점:
제안된 모델의 일반화 성능에 대한 추가적인 연구 필요.
다양한 환경 및 작업에 대한 적용성 검증 필요.
슬롯 어텐션의 객체 표현 능력의 한계에 대한 고찰 필요.
복잡한 상황이나 장기 예측에 대한 성능 평가 필요.
👍