Sign In

iFlyBot-VLA Technical Report

Created by
  • Haebom
Category
Empty

저자

Yuan Zhang, Chenyu Xue, Wenjie Xu, Chao Ji, Jiajia wu, Jia Pan

개요

iFlyBot-VLA는 새로운 프레임워크를 기반으로 훈련된 대규모 Vision-Language-Action (VLA) 모델입니다. 주요 내용은 다음과 같습니다: (1) 대규모 인간 및 로봇 조작 비디오에 대해 훈련된 잠재적 액션 모델; (2) Vision-Language Model (VLM)과 액션 전문가를 함께 감독하는 이중 레벨 액션 표현 프레임워크; (3) 로봇 궤적 데이터와 일반 QA 및 공간 QA 데이터 세트를 결합하여 VLM 백본의 3D 인식 및 추론 능력을 효과적으로 향상시키는 혼합 훈련 전략. VLM은 잠재적 액션(상위 수준 의도를 포착)과 구조화된 개별 액션 토큰(하위 수준 역학을 인코딩)의 두 가지 보완적인 형태의 액션을 예측하도록 훈련됩니다.

시사점, 한계점

LIBERO Franka 벤치마크에서 우수한 성능을 입증.
실제 환경 평가에서 다양한 조작 작업에서 경쟁력 있는 성공률 달성.
자체 구축 데이터 세트의 일부를 오픈 소스하여 향후 연구 지원 예정.
논문의 구체적인 한계점은 제시되지 않음.
👍