Casper: Inferring Diverse Intents for Assistive Teleoperation with Vision Language Models
Created by
Haebom
저자
Huihan Liu, Rutav Shah, Shuijing Liu, Jack Pittenger, Mingyo Seo, Yuchen Cui, Yonatan Bisk, Roberto Martin-Martin, Yuke Zhu
개요
본 논문은 다양하고 구조화되지 않은 환경에서 효율적이고 직관적인 인간-로봇 협업을 가능하게 하는 보조 원격 조작 시스템인 Casper를 제시한다. 기존 방법들이 단순한 사전 정의된 시나리오나 특정 작업 데이터 분포에 제한되는 것과 달리, Casper는 사전 훈련된 시각 언어 모델(VLMs)에 내장된 상식적 지식을 활용하여 실시간 의도 추론과 유연한 기술 실행을 가능하게 한다. 새로운 물체와 장면에 대한 일반적인 이해를 위한 개방형 세계 인식 모듈, 상식적 추론을 활용하여 원격 조작 사용자 입력을 해석하는 VLM 기반 의도 추론 메커니즘, 다양하고 장기간의 모바일 조작 작업을 지원하도록 기존 보조 원격 조작 시스템의 범위를 확장하는 기술 라이브러리를 통합한다. 인간 연구와 시스템 절제를 포함한 광범위한 실증적 평가를 통해 Casper가 작업 성능을 향상시키고 인지 부하를 줄이며 직접 원격 조작 및 기본 보조 원격 조작보다 높은 사용자 만족도를 달성함을 보여준다.
시사점, 한계점
•
시사점:
◦
사전 훈련된 VLMs를 활용하여 실시간 의도 추론 및 유연한 기술 실행이 가능한 보조 원격 조작 시스템을 제시.
◦
개방형 세계 인식 모듈을 통해 새로운 물체와 장면에 대한 일반적인 이해 가능.
◦
다양하고 장기간의 모바일 조작 작업 지원.
◦
작업 성능 향상, 인지 부하 감소, 사용자 만족도 향상.
•
한계점:
◦
VLMs에 의존하므로, VLMs의 한계(예: 편향된 데이터, 잘못된 정보)가 Casper의 성능에 영향을 미칠 수 있음.