Este artículo presenta EO-Robotics, un modelo base unificado corpóreo, EO-1, y un conjunto de datos de inferencia corpórea multimodal a gran escala, EO-Data1.5M, que contiene más de 1,5 millones de muestras. EO-1 se entrena utilizando una arquitectura unificada que procesa fluidamente entradas multimodales, incluyendo imágenes, texto, vídeos y acciones, y EO-Data1.5M, combinando sinérgicamente la decodificación autorregresiva y la eliminación de ruido por coincidencia de flujo. Esto permite la generación fluida de acciones robóticas y la inferencia corpórea multimodal, demostrando su eficacia en la comprensión y generalización del mundo abierto en diversas tareas de manipulación especializada a largo plazo. Este artículo proporciona detalles sobre la arquitectura de EO-1, la estrategia de organización de datos de EO-Data1.5M y la metodología de entrenamiento.