Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Selección flexible de herramientas mediante la alineación de atributos de baja dimensión de la visión y el lenguaje

Created by
  • Haebom

Autor

Guangfu Hao, Haojie Wen, Liangxuan Guo, Yang Chen, Yanchao Bi, Shan Yu

Describir

Este artículo presenta un modelo computacional interpretable y eficiente en el uso de parámetros que imita la capacidad flexible de selección de herramientas de los seres humanos. Desarrollamos un marco que conecta el reconocimiento visual de herramientas con la comprensión verbal de tareas mediante representaciones de atributos de baja dimensión. Creamos un conjunto de datos completo (ToolNet) que contiene 115 herramientas comunes etiquetadas con 13 atributos que abarcan características físicas, funcionales y psicológicas, junto con escenarios de lenguaje natural que describen su uso. Un codificador visual (ResNet o ViT) extrae atributos de imágenes de herramientas, y un modelo de lenguaje optimizado (GPT-2, LLaMA, DeepSeek) extrae los atributos necesarios de las descripciones de tareas. El enfoque propuesto alcanza una precisión del 74 % en tareas de selección de herramientas, superando significativamente la coincidencia directa de herramientas (20 %) y los modelos multimodales pequeños (21 %-58 %), y acercándose al rendimiento del modelo GPT-4o, mucho más parametrizado (73 %). Estudios de evaluación en humanos demuestran que el marco propuesto se ajusta a los patrones humanos de toma de decisiones, y los experimentos de generalización demuestran un rendimiento eficaz en nuevas categorías de herramientas. Los estudios de eliminación muestran que los atributos relacionados con la manipulación (capacidad de agarre, longitud, relevancia para la mano) son los más importantes en todas las modalidades.

Takeaways, Limitations

Takeaways:
Presentamos un modelo computacional interpretable y eficiente en parámetros que imita las capacidades flexibles de selección de herramientas humanas.
Se presenta un nuevo marco que vincula el reconocimiento de herramientas y la comprensión de tareas lingüísticas.
Se logró una alta precisión (74%) en las tareas de selección de herramientas.
Validar el desempeño del modelo consistente con los patrones de toma de decisiones humanas.
Demostración del rendimiento de generalización para nuevas categorías de herramientas.
Revela la importancia de las propiedades relacionadas con la manipulación.
Limitations:
El conjunto de datos de ToolNet puede ser relativamente pequeño en comparación con conjuntos de datos más grandes.
No se puede garantizar el rendimiento de generalización de un modelo para todos los tipos de herramientas y tareas.
Todavía hay una ligera diferencia de rendimiento en comparación con GPT-4o.
Posible sesgo hacia ciertos atributos.
👍