본 논문은 대규모 "관찰-행동" 로봇 데이터셋을 수집하여 대형 종단 간 모델을 훈련하는 대신, 시각-언어 모델(VLM)을 기반으로 일반화된 정책을 직접 구축하는 새로운 접근 방식을 제시합니다. Maestro라는 시스템을 통해 VLM 코딩 에이전트가 특정 로봇 기능을 캡슐화한 지각, 계획 및 제어 모듈을 동적으로 구성하여 현재 작업 및 시나리오에 맞는 프로그래밍 가능한 정책을 생성합니다. Maestro는 간소화된 폐루프 인터페이스와 광범위하고 다양한 도구 레퍼토리를 통해 VLM 기반 모델보다 뛰어난 제로샷 성능을 보여주며, 새로운 모듈의 추가, 새로운 구현(예: 사족 보행 로봇에 장착된 팔)의 용이성, 최소한의 실제 경험을 통한 적응성을 특징으로 합니다.