Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Maestro: Orchestrating Robotics Modules with Vision-Language Models for Zero-Shot Generalist Robots

Created by
  • Haebom
Category
Empty

저자

Junyao Shi, Rujia Yang, Kaitian Chao, Selina Bingqing Wan, Yifei Shao, Jiahui Lei, Jianing Qian, Long Le, Pratik Chaudhari, Kostas Daniilidis, Chuan Wen, Dinesh Jayaraman

개요

본 논문은 대규모 "관찰-행동-출력" 로봇 데이터 세트를 기반으로 하는 일반화된 로봇 정책 구축 대신, 비전-언어 모델(VLM)을 기반으로 일반화된 정책을 구축하는 새로운 접근 방식을 제시한다. Maestro라는 시스템은 VLM 코딩 에이전트를 사용하여 지각, 계획, 제어 모듈을 동적으로 구성하여 현재 작업 및 시나리오에 맞는 프로그래밍 가능한 정책을 생성한다. Maestro는 간소화된 폐쇄 루프 인터페이스와 광범위하고 다양한 도구 레퍼토리를 통해 기존의 VLM 모델보다 어려운 조작 기술에서 제로 샷 성능을 크게 향상시킨다. 또한 새로운 모듈 통합, 사족보행 로봇과 같은 새로운 구현에의 적용, 최소한의 실제 경험을 통한 적응이 용이하다.

시사점, 한계점

시사점:
VLM을 활용한 일반화된 로봇 정책 구축의 새로운 가능성 제시.
제로 샷 성능 향상 및 복잡한 조작 기술 수행 능력 입증.
새로운 모듈 추가, 다양한 로봇 형태 적응, 최소한의 실제 경험을 통한 학습 용이성.
한계점:
논문의 구체적인 기술적 세부 사항 및 성능 비교에 대한 정보 부족.
Maestro의 일반화된 성능과 다양한 환경에서의 적용 가능성에 대한 추가적인 평가 필요.
VLM 의존성으로 인한 잠재적인 단점 (예: VLM의 한계점 공유).
👍