Qwen-VLA: Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments

Author

Haebom

저자

Qiuyue Wang, Mingsheng Li, Jian Guan, Jinhui Ye, Sicheng Xie, Yitao Liu, Junhao Chen, Zhixuan Liang, Jie Zhang, Xintong Hu, Xuhong Huang, Pei Lin, Junyang Lin, Dayiheng Liu, Shuai Bai, Jingren Zhou, Jiazhao Zhang, Haoqi Yuan, Gengze Zhou, Hang Yin, Ye Wang, Yiyang Huang, Zixing Lei, Wujian Peng, Delin Chen, Yingming Zheng, Jingyang Fan, Xianwei Zhuang, Xin Zhou, Haoyang Li, Anzhe Chen, Tong Zhang, Xuejing Liu, Yuchong Sun, Ruizhe Chen, Zhaohai Li, Chenxu Lu, Zhibo Yang, Tao Yu, Xionghui Chen

💡 개요

본 연구는 다양한 로봇 작업, 환경, 구현체에 걸쳐 일관된 의사결정을 수행하는 단일 통합 모델의 가능성을 탐구합니다. Qwen-VLA는 시각-언어 모델링 기능을 확장하여 연속적인 행동 및 궤적 생성을 지원하는 최초의 통합 구현체 기반 모델입니다. 다양한 데이터 소스로 사전 훈련된 Qwen-VLA는 새로운 로봇 플랫폼에 대한 적응력과 다양한 작업에 걸친 뛰어난 일반화 성능을 보여줍니다.

🔑 시사점 및 한계

•

일반화된 구현체 기반 학습: 단일 모델이 다양한 로봇 작업, 환경, 로봇 구현체에 걸쳐 학습하고 일반화될 수 있음을 입증합니다.

•

시각-언어-행동 통합: 시각적 이해, 추론, 연속적인 행동 생성까지 통합하여 보다 인간과 유사한 로봇 의사결정을 가능하게 합니다.

•

구현체 인식 프롬프트: 로봇별 텍스트 설명을 통해 다양한 로봇 플랫폼에 대한 모델의 적응성을 높이는 새로운 접근 방식을 제시합니다.

•

실제 세계 적용 및 복잡한 작업: DOMINO와 같이 복잡하고 동적인 조작 작업에서의 제로샷 성능이 상대적으로 낮다는 점은 향후 개선이 필요한 부분입니다.

PDF 보기

Made with Slashpage