Casper: Inferring Diverse Intents for Assistive Teleoperation with Vision Language Models
Created by
Haebom
저자
Huihan Liu, Rutav Shah, Shuijing Liu, Jack Pittenger, Mingyo Seo, Yuchen Cui, Yonatan Bisk, Roberto Martin-Martin, Yuke Zhu
개요
본 논문은 다양하고 구조화되지 않은 환경에서 효율적이고 직관적인 인간-로봇 협업을 가능하게 하는 보조 원격 조작 시스템인 Casper를 제시합니다. Casper는 사전 훈련된 시각 언어 모델(VLMs)에 내장된 상식적 지식을 활용하여 실시간 의도 추론과 유연한 기술 실행을 수행합니다. 새로운 물체와 장면에 대한 일반적인 이해를 위한 개방형 세계 인식 모듈, 사용자 입력의 일부를 해석하기 위해 상식적 추론을 활용하는 VLM 기반 의도 추론 메커니즘, 그리고 다양하고 장기적인 모바일 조작 작업을 지원하기 위해 기존 보조 원격 조작 시스템의 범위를 확장하는 기술 라이브러리를 통합합니다. 인간 연구 및 시스템 절제를 포함한 광범위한 실증적 평가를 통해 Casper가 작업 성능을 향상시키고 인지 부하를 줄이며 직접 원격 조작 및 기준 보조 원격 조작보다 높은 사용자 만족도를 달성함을 보여줍니다.
시사점, 한계점
•
시사점:
◦
사전 훈련된 VLMs를 활용하여 실시간 의도 추론 및 유연한 기술 실행이 가능한 보조 원격 조작 시스템을 제시.
◦
개방형 세계 인식 모듈을 통해 다양한 물체와 장면에 대한 일반적인 이해 가능.
◦
다양하고 장기적인 모바일 조작 작업 지원.
◦
작업 성능 향상, 인지 부하 감소, 사용자 만족도 증가 효과 확인.
•
한계점:
◦
VLMs의 상식적 지식에 대한 의존도가 높아, VLMs의 한계가 시스템 성능에 영향을 미칠 수 있음.