[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

EgoVLA: Aprendizaje de modelos de visión, lenguaje y acción a partir de vídeos de personas egocéntricas

Created by
  • Haebom

Autor

Ruihan Yang, Qinxi Yu, Yecheng Wu, Rui Yan, Borui Li, An-Chieh Cheng, Xueyan Zou, Yunhao Fang, Hongxu Yin, Sifei Liu, Song Han, Yao Lu, Xiaolong Wang

Describir

En este artículo, proponemos EgoVLA, un modelo de Visión-Lenguaje-Acción (VLA) que utiliza datos de video capturados desde una perspectiva humana para superar las limitaciones de la recopilación de datos reales de robots en el aprendizaje por imitación para la manipulación de robots. Entrenamos el modelo VLA utilizando información rica de escenas y tareas de datos de video humanos, y convertimos las acciones humanas en acciones robóticas mediante cinemática inversa y retargeting. Ajustamos el modelo utilizando un pequeño número de demostraciones de manipulación de robots y evaluamos su rendimiento en diversas tareas de manipulación bimanual mediante un banco de pruebas de simulación denominado "Ego Humanoid Manipulation Benchmark", demostrando que supera a los métodos existentes.

Takeaways, Limitations

Takeaways:
Mejorar la eficiencia del aprendizaje de imitación de manipulación de robots mediante la utilización a gran escala de datos de vídeo humanos.
Rendimiento de generalización mejorado en una variedad de escenas y tareas.
Traducción efectiva del comportamiento humano en comportamiento robótico mediante cinemática inversa y retargeting.
Presentamos un nuevo punto de referencia de simulación: el Ego Humanoid Manipulation Benchmark.
Limitations:
Posibilidad de reducción de la precisión debido a las diferencias entre el comportamiento humano y el robot.
Es necesaria la verificación del rendimiento de generalización en entornos de robots reales.
Limitaciones en el rendimiento de generalización debido a las limitaciones del punto de referencia de manipulación humanoide del ego.
Dependencia de pequeñas cantidades de datos de demostración de robots.
👍