EmbodiedOneVision: Interleaved Vision-Text-Action Pretraining for General Robot Control
Created by
Haebom
저자
Delin Qu, Haoming Song, Qizhi Chen, Zhaoqing Chen, Xianqiang Gao, Xinyi Ye, Qi Lv, Modi Shi, Guanghui Ren, Cheng Ruan, Maoqing Yao, Haoran Yang, Jiacheng Bao, Bin Zhao, Dong Wang
개요
본 논문은 EO-Robotics, 즉 통합된 엠바디드 기초 모델 EO-1과 150만 개 이상의 샘플을 포함하는 대규모 다중 모달 엠바디드 추론 데이터셋 EO-Data1.5M을 소개한다. EO-1은 이미지, 텍스트, 비디오, 액션 등 다양한 모달 입력을 구분 없이 처리하는 통합 아키텍처와 EO-Data1.5M을 기반으로 자기회귀 디코딩과 플로우 매칭 디노이징의 시너지를 통해 훈련된다. 이를 통해 원활한 로봇 액션 생성과 다중 모달 엠바디드 추론을 가능하게 하며, 다양한 장기간, 숙련된 조작 작업에서 개방형 세계 이해 및 일반화에 대한 효과를 보여준다. 논문에서는 EO-1의 아키텍처, EO-Data1.5M의 데이터 구성 전략, 그리고 훈련 방법론에 대한 자세한 내용을 다룬다.
시사점, 한계점
•
시사점:
◦
다중 모달 엠바디드 추론 및 로봇 제어에서 우수한 성능을 달성하는 통합된 엠바디드 기초 모델 EO-1 제시.
◦
다양한 모달 입력을 구분 없이 처리하는 통합 아키텍처의 효과성 입증.
◦
150만 개 이상의 고품질 샘플을 포함하는 대규모 다중 모달 엠바디드 추론 데이터셋 EO-Data1.5M 공개.