Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

EmbodiedOneVision : Pré-entraînement vision-texte-action entrelacés pour le contrôle robotique général

Created by
  • Haebom

Auteur

Delin Qu, Haoming Song, Qizhi Chen, Zhaoqing Chen, Xianqiang Gao, Xinyi Ye, Qi Lv, Modi Shi, Guanghui Ren, Cheng Ruan, Maoqing Yao, Haoran Yang, Jiacheng Bao, Bin Zhao, Dong Wang

Contour

Cet article présente EO-Robotics, un modèle de base unifié et intégré, EO-1, et un jeu de données d'inférence intégrée multimodale à grande échelle, EO-Data1.5M, contenant plus de 1,5 million d'échantillons. EO-1 est entraîné à l'aide d'une architecture unifiée qui traite de manière transparente les entrées multimodales, notamment les images, le texte, les vidéos et les actions, et EO-Data1.5M, qui combine de manière synergique le décodage autorégressif et le débruitage par correspondance de flux. Cela permet une génération transparente d'actions robotiques et une inférence intégrée multimodale, démontrant ainsi son efficacité dans la compréhension du monde ouvert et la généralisation à diverses tâches de manipulation qualifiées à long terme. Cet article détaille l'architecture d'EO-1, la stratégie d'organisation des données d'EO-Data1.5M et la méthodologie d'entraînement.

Takeaways, Limitations

Takeaways:
Nous présentons un modèle de fondation intégré EO-1 qui atteint des performances supérieures dans l'inférence intégrée multimodale et le contrôle des robots.
Nous présentons une méthodologie de formation synergique qui exploite des ensembles de données multimodales à grande échelle et de haute qualité tels que EO-Data1.5M.
Nous démontrons expérimentalement son efficacité dans la compréhension et la généralisation du monde ouvert à travers une variété de tâches de manipulation qualifiées à long terme.
Nous démontrons l’utilité d’une architecture unifiée qui gère les entrées multimodales sans discrimination.
Limitations:
Une description détaillée du processus de collecte et de composition de l'ensemble de données EO-Data1.5M peut être insuffisante (des discussions concernant le biais de l'ensemble de données, sa représentativité, etc. peuvent être nécessaires).
Il peut encore y avoir des lacunes dans la réalisation d’une flexibilité au niveau humain (et des recherches supplémentaires pourraient être nécessaires pour améliorer cela).
Des recherches supplémentaires pourraient être nécessaires pour déterminer l’évolutivité et la généralisabilité du modèle proposé (en validant son applicabilité dans divers environnements et tâches).
👍