This&That: Language-Gesture Controlled Video Generation for Robot Planning
Created by
Haebom
저자
Boyang Wang, Nikhil Sridhar, Chao Feng, Mark Van der Merwe, Adam Fishman, Nima Fazeli, Jeong Joon Park
개요
본 논문은 다양한 작업을 수행하기 위한 로봇 학습 프레임워크인 This&That을 제안합니다. This&That은 인터넷 규모의 데이터로 훈련된 비디오 생성 모델을 활용하여 일반적인 작업을 해결합니다. 비디오 기반 계획의 세 가지 기본적인 과제, 즉 1) 간단한 인간의 지시를 통한 명확한 작업 의사소통, 2) 사용자 의도를 존중하는 제어 가능한 비디오 생성, 3) 시각적 계획을 로봇 동작으로 변환하는 문제를 해결합니다. 특히 복잡하고 불확실한 환경에서 기존의 언어 전용 방식보다 간결하고 명확한 대안으로 언어-제스처 조건화를 사용하여 비디오 예측을 생성합니다. 생성된 비디오 예측은 Diffusion Video to Action (DiVA)이라는 행동 복제 아키텍처에 입력되며, 기존 최첨단 행동 복제 및 비디오 기반 계획 방법보다 훨씬 우수한 성능을 보입니다.
시사점, 한계점
•
시사점:
◦
간단한 언어와 제스처를 사용하여 로봇에게 복잡한 작업을 명확하게 전달하는 새로운 방법 제시.
◦
기존 방법보다 우수한 성능을 보이는 비디오 기반 로봇 계획 및 행동 복제 아키텍처 (DiVA) 개발.
◦
인터넷 규모의 데이터를 활용한 비디오 생성 모델을 통해 다양한 작업에 대한 물리적 및 의미적 이해 향상.