Cet article présente un modèle informatique interprétable et efficace en termes de paramètres, qui imite la flexibilité de la sélection d'outils par l'humain. Nous développons un cadre qui relie la reconnaissance visuelle d'outils et la compréhension verbale des tâches grâce à des représentations d'attributs de faible dimension. Nous construisons un ensemble de données complet (ToolNet) contenant 115 outils courants étiquetés avec 13 attributs englobant des caractéristiques physiques, fonctionnelles et psychologiques, associés à des scénarios en langage naturel décrivant leur utilisation. Un encodeur visuel (ResNet ou ViT) extrait les attributs des images d'outils, et un modèle de langage optimisé (GPT-2, LLaMA, DeepSeek) extrait les attributs nécessaires des descriptions de tâches. L'approche proposée atteint une précision de 74 % sur les tâches de sélection d'outils, surpassant largement la correspondance directe d'outils (20 %) et les petits modèles multimodaux (21 %-58 %), et se rapprochant des performances du GPT-4o, beaucoup plus paramétré (73 %). Des études d'évaluation humaine démontrent que le cadre proposé correspond aux modèles de prise de décision humaine, et des expériences de généralisation démontrent une performance efficace sur de nouvelles catégories d'outils. Les études d’élimination montrent que les attributs liés à la manipulation (préhensibilité, longueur, pertinence de la main) sont les plus importants dans toutes les modalités.