HAMSTER: Hierarchical Action Models For Open-World Robot Manipulation
Created by
Haebom
저자
Yi Li, Yuquan Deng, Jesse Zhang, Joel Jang, Marius Memmel, Raymond Yu, Caelan Reed Garrett, Fabio Ramos, Dieter Fox, Anqi Li, Abhishek Gupta, Ankit Goyal
개요
본 논문은 로봇 제어에 있어 기존의 단일 모델 방식 대신 계층적 비전-언어-행동(VLA) 모델을 제시한다. 단일 모델 방식은 비전-언어 모델(VLM)을 직접 미세 조정하여 행동을 예측하는 반면, 계층적 모델은 고수준 VLM이 2D 경로를 예측하고, 저수준 제어 정책이 이를 바탕으로 정밀한 조작을 수행하는 방식이다. 이를 통해 고수준 VLM은 세밀한 행동 예측 부담을 줄이고, 저수준 정책은 복잡한 작업 수준 추론 부담을 줄인다. 실험 결과, 계층적 설계를 통해 도메인 간 차이(구현, 역학, 시각적 외관, 작업 의미 등)에도 불구하고 고수준 VLM이 우수한 전이 학습 성능을 보임을 확인하였다. 7가지 일반화 축에 걸쳐 OpenVLA 대비 평균 20%의 성공률 향상(50% 상대적 증가)을 달성하였다.
시사점, 한계점
•
시사점:
◦
계층적 VLA 모델이 로봇 제어에서 도메인 간 일반화 성능을 향상시킬 수 있음을 보여줌.
◦
고가의 로봇 데이터에 의존하지 않고 저렴한 오프도메인 데이터(영상, 스케치, 시뮬레이션 데이터 등)를 효과적으로 활용 가능함을 제시.