Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Aprendizaje de modelos primitivos del mundo encarnado: hacia un aprendizaje robótico escalable

Created by
  • Haebom

Autor

Qiao Sun, Liujia Yang, Wei Tang, Wei Huang, Kaixin Xu, Yongchao Chen, Mingyu Liu, Jiange Yang, Haoyi Zhu, Yating Wang, Tong He, Yilun Chen, Xili Dai, Nanyang Ye, Qinying Gu

Describir

Para abordar el obstáculo clave que supone la dependencia de datos de interacción corporal a gran escala, este artículo propone los Modelos Primitivos del Mundo Encarnado (PEWM), un novedoso paradigma de modelado del mundo centrado en horizontes temporales limitados y a corto plazo. Al restringir la generación de vídeo a un horizonte temporal fijo y a corto plazo, los PEWM permiten una alineación precisa entre los conceptos lingüísticos y las representaciones visuales de los movimientos del robot, lo que reduce la complejidad del entrenamiento, mejora la eficiencia de la recopilación de datos corporales y reduce la latencia de la inferencia. Equipado con un planificador modular de Modelos de Visión y Lenguaje (VLM) y un mecanismo de guía de mapa de calor de Inicio-Objetivo (SGG), permite un control flexible de bucle cerrado y facilita la generalización constructiva de políticas de nivel primitivo a tareas complejas. Aprovechando los antecedentes visuales espaciotemporales de los modelos de vídeo y la comprensión semántica de los VLM, cierra la brecha entre la interacción física precisa y la inferencia de alto nivel, allanando el camino hacia una inteligencia corporal escalable, interpretable y de propósito general.

Takeaways, Limitations

Takeaways:
Presentamos un nuevo paradigma de modelado mundial que aborda el problema de la dependencia de datos a gran escala.
Alineación mejorada y detallada entre el lenguaje y el comportamiento
Reducción de la complejidad del entrenamiento y de la latencia de inferencia
Es posible la recopilación eficiente de datos corporales
Soporte para generalización constructiva para tareas complejas
Presentando la posibilidad de una inteligencia corporal escalable, interpretable y de propósito general.
Limitations:
Dificultad para planificar y realizar previsiones a largo plazo debido a horizontes limitados a corto plazo
Flexibilidad limitada debido a la dependencia de un conjunto fijo de comportamientos primitivos
Dependencia del rendimiento de VLM y SGG
Se necesita una mayor verificación de la aplicabilidad y el rendimiento de generalización a sistemas de robots reales.
👍