Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

EmbodiedOneVision: Preentrenamiento de visión, texto y acción intercalados para el control general de robots

Created by
  • Haebom

Autor

Delin Qu, Haoming Song, Qizhi Chen, Zhaoqing Chen, Xianqiang Gao, Xinyi Ye, Qi Lv, Modi Shi, Guanghui Ren, Cheng Ruan, Maoqing Yao, Haoran Yang, Jiacheng Bao, Bin Zhao, Dong Wang

Describir

Este artículo presenta EO-Robotics, un modelo base unificado corpóreo, EO-1, y un conjunto de datos de inferencia corpórea multimodal a gran escala, EO-Data1.5M, que contiene más de 1,5 millones de muestras. EO-1 se entrena utilizando una arquitectura unificada que procesa fluidamente entradas multimodales, incluyendo imágenes, texto, vídeos y acciones, y EO-Data1.5M, combinando sinérgicamente la decodificación autorregresiva y la eliminación de ruido por coincidencia de flujo. Esto permite la generación fluida de acciones robóticas y la inferencia corpórea multimodal, demostrando su eficacia en la comprensión y generalización del mundo abierto en diversas tareas de manipulación especializada a largo plazo. Este artículo proporciona detalles sobre la arquitectura de EO-1, la estrategia de organización de datos de EO-Data1.5M y la metodología de entrenamiento.

Takeaways, Limitations

Takeaways:
Presentamos un modelo de base incorporado integrado EO-1 que logra un rendimiento superior en inferencia incorporada multimodal y control de robots.
Presentamos una metodología de entrenamiento sinérgica que aprovecha conjuntos de datos multimodales de gran escala y alta calidad como EO-Data1.5M.
Demostramos experimentalmente su eficacia en la comprensión y generalización del mundo abierto a través de una variedad de tareas de manipulación especializada a largo plazo.
Demostramos la utilidad de una arquitectura unificada que maneja entradas multimodales indiscriminadamente.
Limitations:
Una descripción detallada del proceso de recopilación y composición del conjunto de datos EO-Data1.5M puede ser insuficiente (pueden ser necesarias discusiones respecto del sesgo, la representatividad, etc. del conjunto de datos).
Es posible que aún existan algunas lagunas en el proceso de lograr una flexibilidad a nivel humano (y puede que se necesite más investigación para mejorarla).
Tal vez se necesiten más investigaciones para determinar la escalabilidad y generalización del modelo propuesto (validando su aplicabilidad en diversos entornos y tareas).
👍