[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Manipulación bimanual generalista mediante modelos de difusión de vídeo de base

Created by
  • Haebom

Autor

Yao Feng, Hengkai Tan, Xinyi Mao, Guodong Liu, Shuhe Huang, Chendong Xiang, Hang Su, Jun Zhu

Describir

VIDAR es un marco de trabajo de dos etapas que utiliza preentrenamiento basado en video a gran escala y un novedoso modelo de dinámica de máscaras para abordar la escasez de datos y la heterogeneidad de entidades, aumentando así la escalabilidad de la manipulación dual de robots. Utilizando 750 000 videos multivista, preentrenamos un modelo de difusión de video y un modelo de dinámica de máscaras que extrae información relevante para la acción de las máscaras sin etiquetas píxel por píxel. Demostramos que se generaliza correctamente a nuevas tareas y entornos con solo 20 minutos de demostraciones humanas (1 % del requisito de datos habitual) en una novedosa plataforma robótica.

Takeaways, Limitations

Takeaways:
Al combinar el preaprendizaje basado en video a gran escala con un modelo de dinámica de máscara, mejoramos significativamente la escalabilidad y el rendimiento de generalización de la manipulación de robots duales.
Sugiere la posibilidad de construir un sistema de manipulación de robots que pueda adaptarse a diversas tareas y entornos incluso con una pequeña cantidad de datos.
Demostramos la aplicabilidad de los modelos de base basados en vídeo al campo de la manipulación robótica.
Limitations:
Dado que actualmente utilizamos un conjunto de datos limitado a tres plataformas de robots duales del mundo real, es necesaria la validación del rendimiento de generalización a plataformas y entornos de robots más diversos.
Falta una descripción detallada del proceso de aprendizaje y del mecanismo de generación de máscaras del modelo de dinámica de máscaras.
La evaluación del desempeño es necesaria para tareas más desafiantes que involucran tareas a largo plazo o interacciones complejas.
👍