यह शोधपत्र मानव-रोबोट अंतःक्रिया और इमर्सिव AR/VR अनुभवों के लिए हाथ-वस्तु 3D पुनर्निर्माण पर केंद्रित है। मौजूदा RGB अनुक्रम-आधारित, वस्तु-स्वतंत्र हाथ-वस्तु पुनर्निर्माण विधियाँ हाथ-वस्तु 3D ट्रैकिंग की दो-चरणीय पाइपलाइन का उपयोग करती हैं, जिसके बाद बहु-दृश्य 3D पुनर्निर्माण होता है। हालाँकि, वे SfM और हाथ की-पॉइंट ऑप्टिमाइज़ेशन जैसी की-पॉइंट डिटेक्शन तकनीकों पर निर्भर करती हैं, जो विविध वस्तु ज्यामिति, कमज़ोर बनावट और पारस्परिक हाथ-वस्तु अवरोधन से जूझती हैं। इन चुनौतियों का समाधान करने के लिए, हम बिना की-पॉइंट डिटेक्टर के मोनोकुलर गति वीडियो/छवियों से हाथ-वस्तु 3D परिवर्तनों का अनुमान लगाने के लिए एक मज़बूत विधि प्रस्तावित करते हैं। इस विधि को एक बहु-दृश्य पुनर्निर्माण पाइपलाइन के साथ एकीकृत करके, हम हाथ-वस्तु 3D आकार को सटीक रूप से पुनर्प्राप्त करते हैं। प्रस्तावित विधि, HOSt3R, अप्रतिबंधित है और पूर्व-स्कैन की गई वस्तु टेम्पलेट्स या कैमरा-आंतरिक मापदंडों पर निर्भर नहीं करती है, जिससे SHOWMe बेंचमार्क पर अत्याधुनिक प्रदर्शन प्राप्त होता है। हम HO3D डेटासेट से अनुक्रमों का उपयोग करके अज्ञात वस्तु श्रेणियों के सामान्यीकरण को भी प्रदर्शित करते हैं।