Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

LEGO Co-builder: Exploración del modelado visual y lingüístico de grano fino para asistentes de ensamblaje LEGO multimodales

Created by
  • Haebom

Autor

Haochen Huang, Jiahuan Pei, Mohammad Aliannejadi, Xin Sun, Moonisa Ahsan, Chuang Yu, Zhaochun Ren, Pablo Cesar, Junxiao Wang

Describir

Este artículo aborda los desafíos de los modelos de lenguaje visual (MLV) para comprender y seguir instrucciones de ensamblaje multimodal, especialmente cuando se requiere razonamiento espacial sofisticado y detección precisa del estado de los objetos. Presentamos LEGO Co-builder, un benchmark híbrido que combina la lógica de ensamblaje LEGO del mundo real con escenas multimodales generadas programáticamente. Este conjunto de datos captura estados visuales paso a paso e instrucciones procedimentales, lo que permite la evaluación controlada del seguimiento de instrucciones, la detección de objetos y la detección de estado. Los principales MLV, como GPT-4o, Gemini y Qwen-VL, se evalúan con nuestro marco unificado en entornos de cero disparos y ajuste fino. Los resultados muestran que incluso modelos avanzados como GPT-4o presentan dificultades con tareas de ensamblaje sofisticadas, con una puntuación F1 máxima de tan solo el 40,54 % en detección de estado, lo que demuestra una brecha en la comprensión visual sofisticada. Para apoyar futuras investigaciones sobre asistencia al ensamblaje multimodal, publicamos el benchmark, el código base y el flujo de generación.

Takeaways, Limitations

Takeaways:
Proporcionar un nuevo punto de referencia (LEGO Co-builder) para la investigación sobre sistemas de asistencia de ensamblaje multimodal basados en flujos de trabajo del mundo real.
Revelamos los límites de la sofisticada comprensión visual y las capacidades de razonamiento espacial de los VLM de última generación.
Se presentan direcciones de investigación para mejorar el rendimiento de los VLM en operaciones de ensamblaje sofisticadas.
Limitations:
La puntuación F1 del índice de referencia actual es relativamente baja, 40,54%, lo que deja espacio para que los VLM mejoren su rendimiento.
Dado que este es un punto de referencia específico para la construcción con LEGO, se necesita más investigación sobre su generalización a otras tareas multimodales.
Los tipos de VLM utilizados en la evaluación son limitados. Se requiere mayor investigación que incluya una mayor variedad de modelos.
👍