Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

LeVERB: Humanoid Whole-Body Control with Latent Vision-Language Instruction

Created by
  • Haebom

저자

Haoru Xue, Xiaoyu Huang, Dantong Niu, Qiayuan Liao, Thomas Kragerud, Jan Tommy Gravdahl, Xue Bin Peng, Guanya Shi, Trevor Darrell, Koushil Screenath, Shankar Sastry

개요

본 논문은 인간형 로봇의 전신 제어(WBC)를 위한 최초의 시뮬레이션-실제 전이 가능한 시각-언어-행동(VLA) 벤치마크를 제시합니다. 기존 VLA 모델들이 정교한 저수준 제어기를 가정하는 것과 달리, 본 논문은 10개 카테고리의 150개 이상의 과제를 포함하는 벤치마크를 통해 인간형 로봇의 민첩한 전신 행동 제어를 목표로 합니다. 또한, 계층적 잠재 명령어 추종 프레임워크인 LeVERB를 제안합니다. LeVERB는 상위 레벨에서 시각-언어 정책을 통해 합성적으로 렌더링된 운동학적 데모로부터 잠재적인 행동 어휘를 학습하고, 하위 레벨에서 강화 학습된 WBC 정책을 통해 이러한 잠재적인 동작들을 역동적인 수준의 명령으로 변환합니다. 결과적으로, LeVERB는 단순한 시각적 탐색 과제에서 80%의 성공률, 전체적으로 58.5%의 성공률을 달성하여 기존의 VLA 구현 방식보다 7.8배 향상된 성능을 보였습니다.

시사점, 한계점

시사점:
인간형 로봇의 WBC를 위한 최초의 시뮬레이션-실제 전이 가능한 VLA 벤치마크 제공
계층적 VLA 프레임워크인 LeVERB를 통해 복잡한 WBC 과제 해결 가능성 제시
시각-언어 지시에 대한 로봇의 제로샷 일반화 성능 향상
기존 방법 대비 월등한 성능 개선 (7.8배)
한계점:
벤치마크의 과제 범위가 제한적일 수 있음 (10개 카테고리, 150개 과제)
실제 환경에서의 일반화 성능에 대한 추가적인 검증 필요
LeVERB의 계산 비용 및 복잡성에 대한 분석 부족
더욱 복잡하고 다양한 WBC 과제에 대한 성능 평가 필요
👍