[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Hi Robot: Open-Ended Instruction Following with Hierarchical Vision-Language-Action Models

Created by
  • Haebom

저자

Lucy Xiaoyang Shi, Brian Ichter, Michael Equi, Liyiming Ke, Karl Pertsch, Quan Vuong, James Tanner, Anna Walling, Haohuan Wang, Niccolo Fusai, Adrian Li-Bell, Danny Driess, Lachy Groom, Sergey Levine, Chelsea Finn

개요

본 논문은 개방형 환경에서 다양한 작업을 수행할 수 있는 다재다능한 로봇 시스템을 제시합니다. 이 시스템은 복잡한 지시, 프롬프트, 피드백을 처리하고, 단계별 작업 계획을 세우는 능력을 갖추고 있습니다. 계층적 구조의 비전-언어 모델을 사용하여 복잡한 명령과 사용자 피드백을 분석하고, 가장 적절한 다음 단계를 추론한 후 저수준 동작으로 해당 단계를 수행합니다. 단순한 명령("컵을 집어라")을 수행하는 직접적인 명령 수행 방식과 달리, 복잡한 프롬프트를 이해하고 작업 실행 중 상황에 맞는 피드백("그건 쓰레기가 아니야")을 통합할 수 있습니다. 단일 팔, 이중 팔, 이중 팔 모바일 로봇 등 세 가지 로봇 플랫폼에서 테이블 정리, 샌드위치 만들기, 식료품 쇼핑과 같은 작업을 수행하는 능력을 평가했습니다.

시사점, 한계점

시사점:
복잡한 언어 명령과 상황적 피드백을 처리하는 로봇 시스템 구축 가능성을 보여줌.
다양한 로봇 플랫폼에서의 적용 가능성을 실험적으로 검증.
비전-언어 모델의 계층적 활용을 통한 효율적인 작업 수행.
한계점:
논문에서 제시된 시스템의 일반화 능력 및 견고성에 대한 추가적인 분석 필요.
다양한 환경 및 작업에 대한 확장성 검증 필요.
예상치 못한 상황이나 오류에 대한 처리 능력에 대한 추가적인 연구 필요.
👍