LeVERB: Humanoid Whole-Body Control with Latent Vision-Language Instruction
Created by
Haebom
저자
Haoru Xue, Xiaoyu Huang, Dantong Niu, Qiayuan Liao, Thomas Kragerud, Jan Tommy Gravdahl, Xue Bin Peng, Guanya Shi, Trevor Darrell, Koushil Screenath, Shankar Sastry
개요
본 논문은 인간형 로봇의 전신 제어(WBC)를 위한 최초의 시뮬레이션-실제 전이 가능한 시각-언어-행동(VLA) 벤치마크를 제시합니다. 기존 VLA 모델들이 정교한 저수준 제어기를 가정하는 것과 달리, 본 논문은 10개 카테고리의 150개 이상의 과제를 포함하는 벤치마크를 통해 인간형 로봇의 민첩한 전신 행동 제어를 목표로 합니다. 또한, 계층적 잠재 명령어 추종 프레임워크인 LeVERB를 제안합니다. LeVERB는 상위 레벨에서 시각-언어 정책을 통해 합성적으로 렌더링된 운동학적 데모로부터 잠재적인 행동 어휘를 학습하고, 하위 레벨에서 강화 학습된 WBC 정책을 통해 이러한 잠재적인 동작들을 역동적인 수준의 명령으로 변환합니다. 결과적으로, LeVERB는 단순한 시각적 탐색 과제에서 80%의 성공률, 전체적으로 58.5%의 성공률을 달성하여 기존의 VLA 구현 방식보다 7.8배 향상된 성능을 보였습니다.