यह शोधपत्र एक पैरामीटर-कुशल, व्याख्यात्मक अभिकलनात्मक मॉडल प्रस्तुत करता है जो लचीली मानव उपकरण चयन क्षमता का अनुकरण करता है। हम एक ऐसा ढाँचा विकसित करते हैं जो निम्न-आयामी विशेषता निरूपण का उपयोग करके दृश्य उपकरण पहचान और मौखिक कार्य बोध को जोड़ता है। हम एक व्यापक डेटासेट (टूलनेट) बनाते हैं जिसमें 115 सामान्य उपकरण शामिल हैं, जिन्हें भौतिक, कार्यात्मक और मनोवैज्ञानिक विशेषताओं को समाहित करने वाली 13 विशेषताओं के साथ लेबल किया गया है, और उपकरण उपयोग का वर्णन करने वाले प्राकृतिक भाषा परिदृश्यों के साथ जोड़ा गया है। एक दृश्य एनकोडर (ResNet या ViT) उपकरण छवियों से विशेषताएँ निकालता है, और एक परिष्कृत भाषा मॉडल (GPT-2, LLaMA, DeepSeek) कार्य विवरणों से आवश्यक विशेषताएँ निकालता है। प्रस्तावित दृष्टिकोण उपकरण चयन कार्यों पर 74% सटीकता प्राप्त करता है, जो प्रत्यक्ष उपकरण मिलान (20%) और छोटे बहुविध मॉडलों (21%-58%) से काफी बेहतर प्रदर्शन करता है, और अधिक पैरामीटरयुक्त GPT-4o (73%) के प्रदर्शन के करीब पहुँचता है। मानव मूल्यांकन अध्ययन प्रदर्शित करते हैं कि प्रस्तावित ढाँचा मानव निर्णय लेने के पैटर्न से मेल खाता है, और सामान्यीकरण प्रयोग नवीन उपकरण श्रेणियों पर प्रभावी प्रदर्शन प्रदर्शित करते हैं। उन्मूलन अध्ययन से पता चलता है कि हेरफेर से संबंधित विशेषताएं (पकड़ने की क्षमता, लंबाई, हाथ की प्रासंगिकता) सभी तौर-तरीकों में सबसे महत्वपूर्ण हैं।