इस शोधपत्र में, हम वीडियो के लिए निर्देशित टेम्पोरल ग्राउंडिंग (VideoITG) का प्रस्ताव रखते हैं, जो वीडियो-एलएलएम के प्रदर्शन को बेहतर बनाने के लिए उपयोगकर्ता के निर्देशों द्वारा निर्देशित फ़्रेमों के चयन की एक नवीन विधि है। VideoITG, VidThinker, एक स्वचालित एनोटेशन ढाँचे पर केंद्रित है। इसमें तीन चरण शामिल हैं: उपयोगकर्ता के निर्देशों द्वारा निर्देशित विस्तृत क्लिप-स्तरीय कैप्शन तैयार करना, निर्देश-आधारित अनुमान के माध्यम से प्रासंगिक वीडियो खंडों को पुनः प्राप्त करना, और समृद्ध दृश्य साक्ष्य की सटीक पहचान के लिए सूक्ष्म फ़्रेम चयन। VidThinker का उपयोग करते हुए, हम 40,000 वीडियो और 500,000 एनोटेशन वाले VideoITG-40K डेटासेट का निर्माण करते हैं, और एक प्लग-एंड-प्ले VideoITG मॉडल डिज़ाइन करते हैं जो वीडियो-एलएलएम की दृश्य-भाषा संरेखण और अनुमान क्षमताओं का लाभ उठाता है। प्रायोगिक परिणाम विभिन्न मल्टीमॉडल वीडियो समझ मानकों पर लगातार प्रदर्शन में सुधार दर्शाते हैं, जो वीडियो समझ के लिए इसकी श्रेष्ठता और क्षमता को दर्शाता है।