Yuan Zhang, Chenyu Xue, Wenjie Xu, Chao Ji, Jiajia wu, Jia Pan
개요
iFlyBot-VLA는 새로운 프레임워크를 기반으로 훈련된 대규모 Vision-Language-Action (VLA) 모델입니다. 주요 내용은 다음과 같습니다: (1) 대규모 인간 및 로봇 조작 비디오에 대해 훈련된 잠재적 액션 모델; (2) Vision-Language Model (VLM)과 액션 전문가를 함께 감독하는 이중 레벨 액션 표현 프레임워크; (3) 로봇 궤적 데이터와 일반 QA 및 공간 QA 데이터 세트를 결합하여 VLM 백본의 3D 인식 및 추론 능력을 효과적으로 향상시키는 혼합 훈련 전략. VLM은 잠재적 액션(상위 수준 의도를 포착)과 구조화된 개별 액션 토큰(하위 수준 역학을 인코딩)의 두 가지 보완적인 형태의 액션을 예측하도록 훈련됩니다.