Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Sélection d'outils flexible grâce à l'alignement des attributs de faible dimension de la vision et du langage

Created by
  • Haebom

Auteur

Guangfu Hao, Haojie Wen, Liangxuan Guo, Yang Chen, Yanchao Bi, Shan Yu

Contour

Cet article présente un modèle informatique interprétable et efficace en termes de paramètres, qui imite la flexibilité de la sélection d'outils par l'humain. Nous développons un cadre qui relie la reconnaissance visuelle d'outils et la compréhension verbale des tâches grâce à des représentations d'attributs de faible dimension. Nous construisons un ensemble de données complet (ToolNet) contenant 115 outils courants étiquetés avec 13 attributs englobant des caractéristiques physiques, fonctionnelles et psychologiques, associés à des scénarios en langage naturel décrivant leur utilisation. Un encodeur visuel (ResNet ou ViT) extrait les attributs des images d'outils, et un modèle de langage optimisé (GPT-2, LLaMA, DeepSeek) extrait les attributs nécessaires des descriptions de tâches. L'approche proposée atteint une précision de 74 % sur les tâches de sélection d'outils, surpassant largement la correspondance directe d'outils (20 %) et les petits modèles multimodaux (21 %-58 %), et se rapprochant des performances du GPT-4o, beaucoup plus paramétré (73 %). Des études d'évaluation humaine démontrent que le cadre proposé correspond aux modèles de prise de décision humaine, et des expériences de généralisation démontrent une performance efficace sur de nouvelles catégories d'outils. Les études d’élimination montrent que les attributs liés à la manipulation (préhensibilité, longueur, pertinence de la main) sont les plus importants dans toutes les modalités.

Takeaways, Limitations_

Takeaways:
Nous présentons un modèle de calcul efficace en termes de paramètres et interprétable qui imite les capacités de sélection d'outils flexibles de l'homme.
Un nouveau cadre reliant la reconnaissance d’outils et la compréhension des tâches linguistiques est présenté.
A obtenu une grande précision (74 %) dans les tâches de sélection d'outils.
Validation des performances du modèle cohérentes avec les modèles de prise de décision humaine.
Démonstration des performances de généralisation pour les nouvelles catégories d’outils.
Révèle l’importance des propriétés liées à la manipulation.
Limitations:
L'ensemble de données ToolNet peut être relativement petit par rapport aux ensembles de données plus grands.
Les performances de généralisation d’un modèle ne peuvent pas être garanties pour tous les types d’outils et de tâches.
Il y a encore une légère différence de performances par rapport au GPT-4o.
Possible biais envers certains attributs.
👍