दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

PVChat: एक बार में सीखने के साथ व्यक्तिगत वीडियो चैट

Created by
  • Haebom

लेखक

युफेई शि, वेइलोंग यान, गैंग जू, युमेंग ली, युचेंग चेन, जेनक्सी ली, फी रिचर्ड यू, मिंग ली, सी योंग येओ

रूपरेखा

इस शोधपत्र में, हम PVChat, एक वैयक्तिकृत वीडियो वृहद्-स्तरीय भाषा मॉडल (ViLLM) प्रस्तावित करते हैं। मौजूदा ViLLM में विशिष्ट व्यक्तियों को समझने की सीमाएँ हैं, जैसे "विल्सन कीमोथेरेपी करवा रहा है", जबकि PVChat को केवल एक वीडियो के माध्यम से किसी विशिष्ट व्यक्ति के लिए प्रश्न-उत्तर (QA) सक्षम करने के लिए डिज़ाइन किया गया है। यह सिंथेटिक रूप से विस्तारित वीडियो-QA डेटासेट पर मिश्रित शीर्ष (MoH) संवर्द्धन के साथ ViLLM को प्रशिक्षित करने की एक विधि का उपयोग करता है। इसके लिए, हम एक स्वचालित संवर्द्धन पाइपलाइन प्रस्तुत करते हैं जो व्यक्तिगत पहचान जानकारी बनाए रखने वाले सकारात्मक नमूनों को संश्लेषित करती है और मौजूदा वीडियो डेटा से कठिन वाक् नमूनों को पुनः प्राप्त करती है, जिससे विभिन्न प्रकार के QA डेटा, जैसे उपस्थिति, रूप, क्रिया और स्थान संबंधी प्रश्न, उत्पन्न होते हैं। इसके अतिरिक्त, हम व्यक्तिगत विशेषता अधिगम को बढ़ाने के लिए एक ReLU-मार्गित MoH अवधान तंत्र और दो नए उद्देश्य फलन (सुचारु निकटता नियमन, शीर्ष सक्रियण संवर्द्धन) प्रस्तावित करते हैं। यह एक द्वि-चरणीय अधिगम रणनीति के माध्यम से स्थिर विशेषताओं से गतिशील अभ्यावेदन तक वृद्धिशील अधिगम को सक्षम बनाता है जो छवि पूर्व-प्रशिक्षण से वीडियो फ़ाइन-ट्यूनिंग तक आगे बढ़ता है। यह चिकित्सा परिदृश्यों, टीवी श्रृंखला, एनिमेशन और वास्तविक दुनिया के वीडियो जैसे विभिन्न डेटासेट पर मौजूदा अत्याधुनिक ViLLM से बेहतर प्रदर्शन करता है।

Takeaways, Limitations

Takeaways:
हम PVChat प्रस्तुत करते हैं, जो एक ViLLM है जो एकल वीडियो शिक्षण के साथ व्यक्तिगत वीडियो समझ में सक्षम है।
चिकित्सा और स्मार्ट होम जैसे विभिन्न क्षेत्रों में अनुप्रयोग संभावनाओं का विस्तार करना।
सिंथेटिक डेटा संवर्द्धन और नवीन शिक्षण रणनीतियों के साथ ViLLM प्रदर्शन में सुधार करना।
व्यक्तिगत पहचान योग्य जानकारी को बनाए रखते हुए विभिन्न प्रकार के प्रश्नों का उत्तर देने की क्षमता।
Limitations:
सिंथेटिक डेटा पर निर्भर शिक्षण विधियों के सामान्यीकरण प्रदर्शन को सत्यापित करने की आवश्यकता है।
वास्तविक दुनिया की जटिल परिस्थितियों में मजबूती पर और अधिक शोध की आवश्यकता है।
विशिष्ट व्यक्तियों की पहचान की सटीकता निर्धारित करने के लिए आगे के विश्लेषण की आवश्यकता है।
मॉडल प्रदर्शन पर डेटासेट पूर्वाग्रह के प्रभाव पर विचार करने की आवश्यकता है।
👍