दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

ऑडियो-केंद्रित वीडियो समझ बेंचमार्क बिना टेक्स्ट शॉर्टकट के

Created by
  • Haebom

लेखक

युडोंग यांग, जिमिन ज़ुआंग, गुआंगज़ी सन, चांगली तांग, यिक्सुआन ली, पेइहान ली, यिफ़ान जियांग, वेई ली, ज़ेजुन मा, चाओ झांग

रूपरेखा

यह शोधपत्र ऑडियो-केंद्रित वीडियो समझ बेंचमार्क (AVUT) का प्रस्ताव करता है, जो एक वीडियो समझ बेंचमार्क है जो ऑडियो जानकारी पर केंद्रित है। मौजूदा दृश्य-केंद्रित दृष्टिकोणों से आगे बढ़ते हुए, यह वीडियो समझ के लिए ऑडियो द्वारा प्रदान किए गए संदर्भ, भावनात्मक संकेतों और अर्थ संबंधी जानकारी पर ज़ोर देता है। AVUT में कई प्रकार के कार्य शामिल हैं जो ऑडियो सामग्री और दृश्य-श्रव्य अंतःक्रियाओं की समझ का व्यापक मूल्यांकन करते हैं। यह मौजूदा बेंचमार्क में आने वाली "टेक्स्ट शॉर्टकट समस्या" को हल करने के लिए एक उत्तर क्रमपरिवर्तन-आधारित फ़िल्टरिंग तंत्र का भी प्रस्ताव करता है, जहाँ उत्तर केवल प्रश्न के पाठ से ही निकाले जा सकते हैं। हम विभिन्न ओपन-सोर्स और स्वामित्व वाले मल्टीमॉडल एलएलएम का मूल्यांकन करते हैं और उनकी कमियों का विश्लेषण करते हैं। डेमो और डेटा https://github.com/lark-png/AVUT पर उपलब्ध हैं ।

Takeaways, Limitations

Takeaways:
AVUT का परिचय, एक नया वीडियो समझ मानक जो ऑडियो जानकारी के महत्व पर जोर देता है।
मौजूदा बेंचमार्क की "टेक्स्ट शॉर्टकट समस्या" को हल करने के लिए क्रमचय-आधारित फ़िल्टरिंग तंत्र का प्रस्ताव, Limitations
विभिन्न प्रकार के मल्टीमॉडल एलएलएम में ऑडियो-विजुअल समझ कौशल का व्यापक मूल्यांकन और विश्लेषण प्रदान करता है।
ऑडियो-केंद्रित वीडियो समझ अनुसंधान में एक नई दिशा
Limitations:
AVUT बेंचमार्क की सार्वभौमिकता और मापनीयता पर आगे अनुसंधान की आवश्यकता है।
प्रस्तावित उत्तर क्रमपरिवर्तन-आधारित फ़िल्टरिंग तंत्र की प्रभावशीलता और सामान्यीकरण पर आगे सत्यापन की आवश्यकता है।
मूल्यांकन में प्रयुक्त मल्टीमॉडल एलएलएम के प्रकार और विविधता के संबंध में सीमाएं मौजूद हैं।
👍