Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

EmbodiedOneVision: Interleaved Vision-Text-Action Pretraining for General Robot Control

Created by
  • Haebom

저자

Delin Qu, Haoming Song, Qizhi Chen, Zhaoqing Chen, Xianqiang Gao, Xinyi Ye, Qi Lv, Modi Shi, Guanghui Ren, Cheng Ruan, Maoqing Yao, Haoran Yang, Jiacheng Bao, Bin Zhao, Dong Wang

개요

본 논문은 EO-Robotics, 즉 통합된 엠바디드 기초 모델 EO-1과 150만 개 이상의 샘플을 포함하는 대규모 다중 모달 엠바디드 추론 데이터셋 EO-Data1.5M을 소개한다. EO-1은 이미지, 텍스트, 비디오, 액션 등 다양한 모달 입력을 구분 없이 처리하는 통합 아키텍처와 EO-Data1.5M을 기반으로 자기회귀 디코딩과 플로우 매칭 디노이징의 시너지를 통해 훈련된다. 이를 통해 원활한 로봇 액션 생성과 다중 모달 엠바디드 추론을 가능하게 하며, 다양한 장기간, 숙련된 조작 작업에서 개방형 세계 이해 및 일반화에 대한 효과를 보여준다. 논문에서는 EO-1의 아키텍처, EO-Data1.5M의 데이터 구성 전략, 그리고 훈련 방법론에 대한 자세한 내용을 다룬다.

시사점, 한계점

시사점:
다중 모달 엠바디드 추론 및 로봇 제어에서 우수한 성능을 달성하는 통합된 엠바디드 기초 모델 EO-1 제시.
다양한 모달 입력을 구분 없이 처리하는 통합 아키텍처의 효과성 입증.
150만 개 이상의 고품질 샘플을 포함하는 대규모 다중 모달 엠바디드 추론 데이터셋 EO-Data1.5M 공개.
자기회귀 디코딩과 플로우 매칭 디노이징의 시너지를 통한 효과적인 훈련 방법 제시.
장기간, 숙련된 조작 작업에서 개방형 세계 이해 및 일반화 성능 향상.
한계점:
EO-1의 성능이 인간 수준의 유연성에 도달했는지에 대한 명확한 비교 분석 부족.
EO-Data1.5M 데이터셋의 편향성 및 일반화 가능성에 대한 추가적인 분석 필요.
다양한 로봇 플랫폼 및 환경에서의 EO-1의 일반화 성능에 대한 더 넓은 실험 필요.
에너지 효율성 및 실시간 성능에 대한 평가 부족.
👍