Cet article présente EO-Robotics, un modèle de base unifié et intégré, EO-1, et un jeu de données d'inférence intégrée multimodale à grande échelle, EO-Data1.5M, contenant plus de 1,5 million d'échantillons. EO-1 est entraîné à l'aide d'une architecture unifiée qui traite de manière transparente les entrées multimodales, notamment les images, le texte, les vidéos et les actions, et EO-Data1.5M, qui combine de manière synergique le décodage autorégressif et le débruitage par correspondance de flux. Cela permet une génération transparente d'actions robotiques et une inférence intégrée multimodale, démontrant ainsi son efficacité dans la compréhension du monde ouvert et la généralisation à diverses tâches de manipulation qualifiées à long terme. Cet article détaille l'architecture d'EO-1, la stratégie d'organisation des données d'EO-Data1.5M et la méthodologie d'entraînement.