दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

PVChat: वन-शॉट लर्निंग के साथ व्यक्तिगत वीडियो चैट

Created by
  • Haebom

लेखक

युफेई शि, वेइलोंग यान, गैंग जू, युमेंग ली, युचेन चेन, जेनक्सी ली, फी रिचर्ड यू, मिंग ली, सी योंग येओ

रूपरेखा

इस शोधपत्र में, हम PVChat, एक व्यक्तिगत वीडियो बड़े पैमाने पर भाषा मॉडल (ViLLM) का प्रस्ताव करते हैं। इस अवलोकन के आधार पर कि मौजूदा ViLLM सामान्य वीडियो समझ में अच्छे हैं, लेकिन विशिष्ट व्यक्तियों (जैसे, "विल्सन कीमोथेरेपी से गुजर रहा है") को समझने में संघर्ष करते हैं, हम एक ऐसा ढांचा प्रस्तुत करते हैं जो एक ही वीडियो के साथ व्यक्तिगत प्रश्न उत्तर (QA) को सक्षम बनाता है। PVChat सिंथेटिक रूप से संवर्धित वीडियो-QA डेटासेट पर मिश्रित हेड (MoH) वृद्धि के साथ ViLLM को अनुकूलित करता है, एक वृद्धिशील छवि-वीडियो सीखने की रणनीति का उपयोग करता है। हम डेटा वृद्धि पाइपलाइन के माध्यम से पहचान-संरक्षण सकारात्मक नमूनों को संश्लेषित करते हैं और विविध प्रशिक्षण डेटासेट बनाने के लिए मौजूदा वीडियो कॉर्पोरा से कठिन नकारात्मक नमूनों को पुनः प्राप्त करते हैं। इसके अलावा, हम व्यक्तिगत सुविधा सीखने को बढ़ाने के लिए एक ReLU-रूटेड MoH ध्यान तंत्र और दो नए उद्देश्य फ़ंक्शन (स्मूथ प्रॉक्सिमिटी रेगुलेशन और हेड एक्टिवेशन एन्हांसमेंट) का प्रस्ताव करते हैं। हम छवि प्रीट्रेनिंग से वीडियो फ़ाइन-ट्यूनिंग तक दो-चरणीय प्रशिक्षण रणनीति अपनाते हैं, जो स्थिर विशेषताओं से लेकर गतिशील अभ्यावेदन तक एक वृद्धिशील सीखने की प्रक्रिया को सक्षम बनाता है। हम विभिन्न प्रकार के डेटासेट (चिकित्सा परिदृश्य, टीवी श्रृंखला, एनिमेशन और वास्तविक दुनिया के वीडियो) पर PVChat का मूल्यांकन करते हैं और एकल-वीडियो सीखने के बाद निजी सुविधाओं को समझने में मौजूदा अत्याधुनिक ViLLM पर इसकी श्रेष्ठता प्रदर्शित करते हैं।

____T14050_____, ____T14051_____

Takeaways:
हम PVChat प्रस्तुत कर रहे हैं, जो एक नया ViLLM फ्रेमवर्क है, जो एक ही वीडियो से व्यक्तिगत वीडियो समझ को सक्षम बनाता है।
सिंथेटिक डेटा संवर्द्धन और नवीन ध्यान तंत्र और उद्देश्य कार्यों के माध्यम से व्यक्तिगत विशेषताओं का उन्नत शिक्षण।
स्वास्थ्य सेवा और स्मार्ट होम जैसे विभिन्न क्षेत्रों में व्यक्तिगत वीडियो विश्लेषण की संभावना प्रस्तुत करना।
मौजूदा ViLLM Limitations की चरित्र-केंद्रित समझ की समस्या को हल करने में योगदान दिया।
Limitations:
सिंथेटिक डेटा पर उच्च निर्भरता के कारण, वास्तविक डेटा के साथ सामान्यीकरण प्रदर्शन का सत्यापन आवश्यक है।
प्रस्तावित विधि की कम्प्यूटेशनल लागत और दक्षता का आगे विश्लेषण आवश्यक है।
विभिन्न पात्रों और स्थितियों के लिए बहुमुखी प्रतिभा और विस्तारशीलता पर आगे और शोध की आवश्यकता है।
विशिष्ट व्यक्तियों की पहचान करने में सटीकता और मजबूती के लिए आगे और सत्यापन की आवश्यकता है।
👍