Sign In

End-to-End Dexterous Arm-Hand VLA Policies via Shared Autonomy: VR Teleoperation Augmented by Autonomous Hand VLA Policy for Efficient Data Collection

Created by
  • Haebom
Category
Empty

저자

Yu Cui, Yujian Zhang, Lina Tao, Yang Li, Xinyu Yi, Zhibin Li

개요

일반 목적 로봇의 인간과 유사한 능숙한 조작 능력 달성은 주요 과제이다. Vision-Language-Action (VLA) 모델은 시연으로부터 기술을 학습하는 잠재력을 보여주지만, 양질의 훈련 데이터 부족으로 확장성에 제한이 있다. 기존 데이터 수집 방식은 수동 원격 조작으로 인한 과도한 작업자 부담과 자동 계획으로 인한 부자연스러운 동작 생성이라는 제약에 직면한다. 본 논문에서는 매크로 및 마이크로 동작으로 제어를 분할하는 공유 자율성 프레임워크를 제안한다. 인간 작업자는 직관적인 VR 원격 조작을 통해 로봇의 팔 자세를 안내하고, 자율적인 DexGrasp-VLA 정책은 실시간 촉각 및 시각 피드백을 사용하여 세밀한 손 제어를 처리한다. 이 분할은 인지 부하를 크게 줄이고 고품질의 조정된 팔-손 시연을 효율적으로 수집할 수 있게 한다. 이 데이터를 사용하여, 매크로 및 마이크로 움직임의 개별 표현과 공유 표현을 모두 캡처하여 보다 자연스러운 조정을 위한 새로운 Arm-Hand Feature Enhancement 모듈이 향상된 종단간 VLA 정책을 훈련시킨다. Corrective Teleoperation 시스템은 인간 참여형 실패 복구를 통해 지속적인 정책 개선을 가능하게 한다. 실험 결과, 이 프레임워크는 최소한의 인력으로 고품질 데이터를 생성하고, 보이지 않는 인스턴스를 포함한 다양한 객체에 대해 90%의 성공률을 달성했다.

시사점, 한계점

시사점:
인간 작업자의 부담을 줄이고 고품질의 데이터를 효율적으로 수집하는 공유 자율성 프레임워크 제시.
매크로 및 마이크로 동작의 조정을 위한 Arm-Hand Feature Enhancement 모듈 개발.
인간 참여형 실패 복구를 통한 지속적인 정책 개선 시스템 구현.
다양한 객체에 대한 높은 성공률 달성.
한계점:
구체적인 성능 비교 대상이나 환경에 대한 정보가 부족함.
모델의 일반화 능력에 대한 더 자세한 분석 필요.
제안된 시스템의 실제 적용 가능성에 대한 추가적인 연구 필요.
👍