यह शोधपत्र साइन स्पॉटिंग पर केंद्रित है, एक ऐसा कार्य जो निरंतर सांकेतिक भाषा वीडियो में व्यक्तिगत संकेतों की पहचान और स्थानीयकरण करता है। सांकेतिक भाषा अनुवाद और स्केलिंग डेटासेट एनोटेशन प्रयासों में डेटा की गंभीर कमी को दूर करने में साइन स्पॉटिंग एक महत्वपूर्ण भूमिका निभाता है। मौजूदा तरीकों की सीमाओं, जिनमें सीमित शाब्दिक लचीलापन और निरंतर सांकेतिक धाराओं की अंतर्निहित अस्पष्टता शामिल है, को दूर करने के लिए, हम एक नया, प्रशिक्षण-मुक्त ढाँचा प्रस्तुत करते हैं जो एक बड़े पैमाने के भाषा मॉडल (LLM) को एकीकृत करता है। यह ढाँचा स्थानिक-कालिक और हस्त विशेषताओं को निकालता है और गतिशील समय-संक्षेपण (DTW) और कोसाइन समानता का उपयोग करके उन्हें एक बड़े सांकेतिक भाषा शब्दकोश से मिलाता है। यह मॉडल पुनर्प्रशिक्षण के बिना उत्कृष्ट शाब्दिक लचीलापन प्रदान करता है और बीम खोज का उपयोग करके संदर्भ-संवेदनशील ग्लॉस डिसएम्बिगुएशन करने के लिए LLM का उपयोग करता है। सिंथेटिक और वास्तविक-विश्व सांकेतिक भाषा डेटासेट पर प्रायोगिक परिणाम मौजूदा विधियों की तुलना में बेहतर सटीकता और वाक्य प्रवाह प्रदर्शित करते हैं।