본 논문은 대규모 "관찰-행동-출력" 로봇 데이터 세트를 기반으로 하는 일반화된 로봇 정책 구축 대신, 비전-언어 모델(VLM)을 기반으로 일반화된 정책을 구축하는 새로운 접근 방식을 제시한다. Maestro라는 시스템은 VLM 코딩 에이전트를 사용하여 지각, 계획, 제어 모듈을 동적으로 구성하여 현재 작업 및 시나리오에 맞는 프로그래밍 가능한 정책을 생성한다. Maestro는 간소화된 폐쇄 루프 인터페이스와 광범위하고 다양한 도구 레퍼토리를 통해 기존의 VLM 모델보다 어려운 조작 기술에서 제로 샷 성능을 크게 향상시킨다. 또한 새로운 모듈 통합, 사족보행 로봇과 같은 새로운 구현에의 적용, 최소한의 실제 경험을 통한 적응이 용이하다.
시사점, 한계점
•
시사점:
◦
VLM을 활용한 일반화된 로봇 정책 구축의 새로운 가능성 제시.
◦
제로 샷 성능 향상 및 복잡한 조작 기술 수행 능력 입증.
◦
새로운 모듈 추가, 다양한 로봇 형태 적응, 최소한의 실제 경험을 통한 학습 용이성.
•
한계점:
◦
논문의 구체적인 기술적 세부 사항 및 성능 비교에 대한 정보 부족.
◦
Maestro의 일반화된 성능과 다양한 환경에서의 적용 가능성에 대한 추가적인 평가 필요.