Sign In

Maestro: Orchestrating Robotics Modules with Vision-Language Models for Zero-Shot Generalist Robots

Created by
  • Haebom
Category
Empty

저자

Junyao Shi, Rujia Yang, Kaitian Chao, Selina Bingqing Wan, Yifei Shao, Jiahui Lei, Jianing Qian, Long Le, Pratik Chaudhari, Kostas Daniilidis, Chuan Wen, Dinesh Jayaraman

개요

본 논문은 대규모 "관찰-행동" 로봇 데이터셋을 수집하여 대형 종단 간 모델을 훈련하는 대신, 시각-언어 모델(VLM)을 기반으로 일반화된 정책을 직접 구축하는 새로운 접근 방식을 제시합니다. Maestro라는 시스템을 통해 VLM 코딩 에이전트가 특정 로봇 기능을 캡슐화한 지각, 계획 및 제어 모듈을 동적으로 구성하여 현재 작업 및 시나리오에 맞는 프로그래밍 가능한 정책을 생성합니다. Maestro는 간소화된 폐루프 인터페이스와 광범위하고 다양한 도구 레퍼토리를 통해 VLM 기반 모델보다 뛰어난 제로샷 성능을 보여주며, 새로운 모듈의 추가, 새로운 구현(예: 사족 보행 로봇에 장착된 팔)의 용이성, 최소한의 실제 경험을 통한 적응성을 특징으로 합니다.

시사점, 한계점

시사점:
VLM을 로봇 정책의 핵심으로 활용하여 일반화된 로봇 제어의 새로운 접근 방식 제시
제로샷 학습에서 기존 VLM 기반 모델을 능가하는 우수한 성능 입증
모듈식 아키텍처를 통해 시스템 확장성 및 적응성 확보
실제 환경에서의 로봇 학습을 위한 잠재력 제시
한계점:
구체적인 한계점은 논문 내용에서 명시적으로 언급되지 않음.
현재 VLM의 성능 및 능력에 의존하며, VLM 자체의 한계점을 공유할 수 있음
모듈 간의 상호 작용 및 효율성에 대한 추가 연구 필요
복잡한 실제 환경에서의 적용에 대한 추가적인 테스트 필요.
👍