[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

VLMgineer: Modelos de lenguaje de visión como herreros robóticos

Created by
  • Haebom

Autor

George Jiayuan Gao, Tianyu Li, Junyao Shi, Yihan Li, Zizhe Zhang, Nadia Figueroa, Dinesh Jayaraman

Describir

En este artículo, presentamos VLMgineer, un marco para el codiseño iterativo de herramientas físicas y sus planes de actuación, aprovechando las capacidades de generación de código del Modelo de Lenguaje de Visión (VLM) y la exploración evolutiva. VLMgineer se evalúa en diversos puntos de referencia novedosos de escenarios de manipulación cotidianos que requieren el diseño y uso creativo de herramientas, y demostramos que descubre herramientas y políticas más efectivas e innovadoras que las herramientas creadas por humanos o los diseños generativos VLM dirigidos por humanos, transformando problemas robóticos complejos en ejecuciones sencillas. Planeamos publicar el punto de referencia y el código para futuras investigaciones en la invención de herramientas automatizadas.

Takeaways, Limitations

Takeaways:
Se presenta un nuevo método para mejorar la inteligencia física de los robots mediante el uso de VLM.
Proporciona un nuevo punto de referencia para evaluar la creatividad, la planificación y la previsión en el diseño y uso de herramientas.
Demostrar el potencial para el diseño automatizado de herramientas y políticas efectivas e innovadoras que simplifiquen tareas robóticas complejas.
Puntos de referencia y divulgación de código para futuras investigaciones sobre invenciones de herramientas automatizadas.
Limitations:
Se necesitan más investigaciones para determinar la generalización de los puntos de referencia presentados.
El desempeño de VLMgineer puede estar sesgado hacia ciertos tipos de tareas.
Se requiere la aplicación y evaluación del rendimiento de VLMgineer para sistemas de robots reales.
Posibles limitaciones en el diseño de herramientas debido a las limitaciones de VLM.
👍