Using Vision Language Models as Closed-Loop Symbolic Planners for Robotic Applications: A Control-Theoretic Perspective
Created by
Haebom
Category
Empty
저자
Hao Wang, Sathwik Karnik, Bea Lim, Somil Bansal
개요
본 논문은 대규모 언어 모델(LLM) 및 시각 언어 모델(VLM)을 폐쇄 루프 심볼릭 계획에 효과적으로 활용하는 방법을 연구한다. 특히 로봇 응용 분야에서 VLM을 제어 이론적 관점에서 폐쇄 루프 심볼릭 플래너로 사용하는 방법을 탐구한다. 제어 지평선과 웜 스타팅이 VLM 심볼릭 플래너의 성능에 미치는 영향을 실험을 통해 분석하고, VLM 심볼릭 플래너의 성능 향상을 위한 권장 사항을 제시한다.
시사점, 한계점
•
VLM을 폐쇄 루프 심볼릭 플래너로 활용하는 방법에 대한 제어 이론적 관점 제시.
•
제어 지평선 및 웜 스타팅이 VLM 플래너 성능에 미치는 영향 분석.
•
VLM 기반 폐쇄 루프 심볼릭 플래너의 성능 향상을 위한 실질적인 권장 사항 제시.
•
LLM 및 VLM의 블랙 박스 특성으로 인한 예측 불가능한 오류 발생 가능성.
•
로봇 계획에 VLM을 적용하는 데 있어 발생할 수 있는 잠재적인 문제점과 한계에 대한 논의.