Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

ManipBench: Evaluación comparativa de modelos de visión y lenguaje para la manipulación de robots de bajo nivel

작성자
  • Haebom

Autor

Enyu Zhao, Vedant Raval, Hejia Zhang, Jiageng Mao, Zeyu Shangguan, Stefanos Nikolaidis, Yue Wang, Daniel Seita

Describir

Este artículo propone ManipBench, un novedoso benchmark para evaluar el razonamiento de bajo nivel en la manipulación robótica. Si bien los Modelos de Visión y Lenguaje (VLM) se utilizan principalmente como planificadores de alto nivel en la manipulación robótica, recientemente también se han realizado investigaciones sobre su razonamiento de bajo nivel (que determina las acciones precisas del robot). ManipBench evalúa las capacidades de razonamiento de bajo nivel de los VLM en la manipulación robótica en diversos aspectos, como la interacción objeto a objeto y la manipulación de objetos deformables. Treinta y tres VLM representativos de diez familias de modelos se prueban exhaustivamente en el benchmark, analizando las diferencias de rendimiento de los modelos y sus correlaciones con tareas de manipulación en el mundo real. Este análisis revela una brecha significativa entre los modelos actuales y la comprensión a nivel humano.

Takeaways, Limitations

Takeaways:
Presentamos un nuevo punto de referencia (ManipBench) que evalúa exhaustivamente las capacidades de razonamiento de manipulación robótica de bajo nivel de los VLM.
Comparamos y analizamos el rendimiento de varios VLM y presentamos correlaciones con tareas reales.
Muestra claramente la diferencia entre el nivel tecnológico actual de los VLM y el nivel humano.
Limitations:
Dado que ManipBench todavía es un punto de referencia en su etapa inicial, será necesario agregar más modelos y tareas en el futuro.
Tal vez sea necesario revisar y mejorar más el diseño de los puntos de referencia y las métricas de evaluación.
Se necesita más evaluación para tareas de manipulación robótica más complejas que están más allá del alcance de los puntos de referencia actuales.
👍