Este artículo presenta un modelo computacional interpretable y eficiente en el uso de parámetros que imita la capacidad flexible de selección de herramientas de los seres humanos. Desarrollamos un marco que conecta el reconocimiento visual de herramientas con la comprensión verbal de tareas mediante representaciones de atributos de baja dimensión. Creamos un conjunto de datos completo (ToolNet) que contiene 115 herramientas comunes etiquetadas con 13 atributos que abarcan características físicas, funcionales y psicológicas, junto con escenarios de lenguaje natural que describen su uso. Un codificador visual (ResNet o ViT) extrae atributos de imágenes de herramientas, y un modelo de lenguaje optimizado (GPT-2, LLaMA, DeepSeek) extrae los atributos necesarios de las descripciones de tareas. El enfoque propuesto alcanza una precisión del 74 % en tareas de selección de herramientas, superando significativamente la coincidencia directa de herramientas (20 %) y los modelos multimodales pequeños (21 %-58 %), y acercándose al rendimiento del modelo GPT-4o, mucho más parametrizado (73 %). Estudios de evaluación en humanos demuestran que el marco propuesto se ajusta a los patrones humanos de toma de decisiones, y los experimentos de generalización demuestran un rendimiento eficaz en nuevas categorías de herramientas. Los estudios de eliminación muestran que los atributos relacionados con la manipulación (capacidad de agarre, longitud, relevancia para la mano) son los más importantes en todas las modalidades.