यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है। यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है। पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।
यह शोधपत्र ऑडियो-केंद्रित वीडियो समझ बेंचमार्क (AVUT) का प्रस्ताव करता है, जो एक वीडियो समझ बेंचमार्क है जो ऑडियो जानकारी पर केंद्रित है। मौजूदा दृश्य-केंद्रित दृष्टिकोणों से आगे बढ़ते हुए, यह वीडियो समझ के लिए ऑडियो द्वारा प्रदान किए गए संदर्भ, भावनात्मक संकेतों और अर्थ संबंधी जानकारी पर ज़ोर देता है। AVUT में कई प्रकार के कार्य शामिल हैं जो ऑडियो सामग्री और दृश्य-श्रव्य अंतःक्रियाओं की समझ का व्यापक मूल्यांकन करते हैं। यह मौजूदा बेंचमार्क में आने वाली "टेक्स्ट शॉर्टकट समस्या" को हल करने के लिए एक उत्तर क्रमपरिवर्तन-आधारित फ़िल्टरिंग तंत्र का भी प्रस्ताव करता है, जहाँ उत्तर केवल प्रश्न के पाठ से ही निकाले जा सकते हैं। हम विभिन्न ओपन-सोर्स और स्वामित्व वाले मल्टीमॉडल एलएलएम का मूल्यांकन करते हैं और उनकी कमियों का विश्लेषण करते हैं। डेमो और डेटा https://github.com/lark-png/AVUT पर उपलब्ध हैं ।