दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

चेन रिएक्शन! बेहतर और व्याख्या योग्य कारणात्मक वीडियो प्रश्नोत्तर के लिए मध्यवर्ती निरूपण के रूप में कारणात्मक श्रृंखलाओं के साथ संरचित दृष्टिकोण

Created by
  • Haebom

लेखक

परितोष परमार, एरिक पेह, बसुरा फर्नांडो

रूपरेखा

मौजूदा कारण-आधारित वीडियो प्रश्नोत्तर (वीडियोक्यूए) मॉडल उच्च-स्तरीय अनुमान लगाने में कठिनाई का सामना करते हैं और वीडियो समझ, कारण-संबंधी अनुमान और उत्तर निर्माण को आपस में जोड़ने वाली अपारदर्शी, अखंड पाइपलाइनों पर निर्भर करते हैं। इन ब्लैक-बॉक्स दृष्टिकोणों की व्याख्या सीमित होती है और ये सतही अनुमानों पर निर्भर करते हैं। इस पत्र में, हम एक नया मॉड्यूलर ढाँचा प्रस्तावित करते हैं जो कारण-संबंधी अनुमान को उत्तर निर्माण से स्पष्ट रूप से अलग करता है। व्याख्या योग्य मध्यवर्ती निरूपणों के रूप में प्राकृतिक भाषा कारण-संबंधी श्रृंखलाओं को प्रस्तुत करके, हम संरचित कारण-संबंधी अनुक्रमों के माध्यम से पारदर्शी और तार्किक रूप से सुसंगत अनुमान को सक्षम करते हैं जो निम्न-स्तरीय वीडियो सामग्री और उच्च-स्तरीय कारण-संबंधी अनुमान को जोड़ते हैं। दो-चरणीय संरचना में एक कारण-संबंधी श्रृंखला निष्कर्षक (सीसीई) शामिल है, जो वीडियो-प्रश्न युग्मों से कारण-संबंधी श्रृंखलाएँ उत्पन्न करता है, और एक कारण-संबंधी श्रृंखला-आधारित उत्तरदाता (सीसीडीए), जो इन श्रृंखलाओं के आधार पर उत्तर उत्पन्न करता है। एनोटेटेड अनुमान ट्रेस की कमी को दूर करने के लिए, हम बड़े पैमाने के भाषा मॉडल का उपयोग करके मौजूदा डेटासेट से उच्च-गुणवत्ता वाले कारण-श्रृंखलाएँ उत्पन्न करने के लिए एक स्केलेबल विधि प्रस्तावित करते हैं। हम कारण-उन्मुख कैप्शन के लिए एक नवीन मूल्यांकन मीट्रिक, CauCo, भी प्रस्तावित करते हैं। तीन बड़े पैमाने के बेंचमार्क पर किए गए प्रयोगों से पता चलता है कि प्रस्तावित दृष्टिकोण न केवल अत्याधुनिक मॉडलों से बेहतर प्रदर्शन करता है, बल्कि व्याख्यात्मकता, उपयोगकर्ता विश्वास और सामान्यीकरण में भी महत्वपूर्ण लाभ प्रदान करता है, जिससे CCE विभिन्न क्षेत्रों में एक पुन: प्रयोज्य कारण-अनुमान इंजन के रूप में स्थापित होता है।

Takeaways, Limitations

Takeaways:
हमने उत्तर निर्माण से कारणात्मक अनुमान को अलग करके मॉडल की व्याख्या और विश्वसनीयता में सुधार किया।
यह मध्यवर्ती अभ्यावेदन के रूप में प्राकृतिक भाषा कारण श्रृंखलाओं का उपयोग करके एक पारदर्शी और तार्किक अनुमान प्रक्रिया प्रदान करता है।
हम बड़े पैमाने पर भाषा मॉडल का लाभ उठाकर कारण श्रृंखलाएं उत्पन्न करने के लिए एक मापनीय विधि प्रस्तुत करते हैं।
हम एक नए मूल्यांकन मीट्रिक, CauCo का प्रस्ताव करके कारणात्मक उपशीर्षक मूल्यांकन में सुधार करते हैं।
इसका उपयोग विभिन्न क्षेत्रों में पुन: प्रयोज्य कारणात्मक अनुमान इंजन के रूप में किया जा सकता है।
यह ऐसे परिणाम प्रदान करता है जो अत्याधुनिक मॉडलों के प्रदर्शन से भी बेहतर हैं।
Limitations:
प्रस्तावित विधि का प्रदर्शन बड़े पैमाने के भाषा मॉडल के प्रदर्शन पर निर्भर हो सकता है।
उत्पन्न कारण श्रृंखला की गुणवत्ता मॉडल के प्रदर्शन को प्रभावित कर सकती है।
काउको सहित नए मूल्यांकन मेट्रिक्स की बहुमुखी प्रतिभा और सामान्यीकरण प्रदर्शन का पता लगाने के लिए आगे अनुसंधान की आवश्यकता है।
कुछ प्रकार के वीडियो या प्रश्नों का प्रदर्शन ख़राब हो सकता है.
👍