DexGraspVLA: A Vision-Language-Action Framework Towards General Dexterous Grasping
Created by
Haebom
Category
Empty
저자
Yifan Zhong, Xuchuan Huang, Ruochong Li, Ceyao Zhang, Zhang Chen, Tianrui Guan, Fanlian Zeng, Ka Num Lui, Yuyao Ye, Yitao Liang, Yaodong Yang, Yuanpei Chen
개요
DexGraspVLA는 언어 지침 기반의 일반적인 능숙한 파지 및 그 이상을 위한 계층적 프레임워크입니다. 사전 훈련된 Vision-Language 모델을 상위 레벨 플래너로 활용하고, 확산 기반 하위 레벨 액션 컨트롤러를 학습합니다. 이 방법은 다양한 언어 및 시각적 입력을 도메인 불변 표현으로 반복적으로 변환하여 일반화를 달성합니다. 90% 이상의 능숙한 파지 성공률을 보이며, 자유 형식의 장기적 프롬프트 실행, 적대적 객체 및 인간 방해에 대한 강인성, 실패 복구를 동시에 시연합니다. 비파지 파지에 대한 확장 적용을 통해 일반성을 입증합니다.