यह शोधपत्र दृश्य और स्पर्श संबंधी जानकारी को एकीकृत करके वस्तु मुद्रा आकलन की सटीकता और सुदृढ़ता में सुधार के लिए एक नवीन विधि प्रस्तुत करता है। पिछले अध्ययनों की चुनौतियों, जिनमें विविध ग्रिपर, सेंसर प्लेसमेंट, सिमुलेशन और वास्तविक वातावरण के बीच सामान्यीकरण का अभाव, और फ़्रेम-दर-फ़्रेम स्वतंत्र आकलन के कारण ट्रैकिंग में विसंगतियाँ शामिल हैं, का समाधान करने के लिए, हम एक एकीकृत स्पर्शनीय निरूपण प्रस्तावित करते हैं जो कई ग्रिपर कार्यान्वयनों को प्रभावी ढंग से संभालता है और एक दृश्य-स्पर्शी ट्रांसफ़ॉर्मर-आधारित वस्तु मुद्रा ट्रैकर जो दृश्य और स्पर्शनीय इनपुट को सहजता से एकीकृत करता है। प्रस्तावित विधि विविध कार्यान्वयनों, वस्तुओं और सेंसर प्रकारों (टैक्सन-आधारित और दृष्टि-आधारित स्पर्शनीय सेंसर, दोनों) में उत्कृष्ट सामान्यीकरण और सुदृढ़ता प्राप्त करती है, और वास्तविक दुनिया के प्रयोगों में अत्याधुनिक दृश्य ट्रैकर्स से काफ़ी बेहतर प्रदर्शन करती है। इसके अलावा, हम प्रदर्शित करते हैं कि सटीक हेरफेर कार्यों को सक्षम करने के लिए वास्तविक समय वस्तु ट्रैकिंग को गति नियोजन में एकीकृत किया जा सकता है।