दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

वीडियो में क्रैश का पता लगाने के लिए बड़े भाषा मॉडल: विधियों, डेटासेट और चुनौतियों का एक सर्वेक्षण

Created by
  • Haebom

लेखक

संजेदा अख्तर, इब्ने फ़राबी शिहाब, अनुज शर्मा

रूपरेखा

यह शोध पत्र बुद्धिमान परिवहन प्रणालियों में वीडियो-आधारित टक्कर पहचान में हाल के शोध रुझानों का सर्वेक्षण करता है। बड़े पैमाने के भाषा मॉडल (एलएलएम) और दृष्टि-भाषा मॉडल (वीएलएम) के विकास के साथ, बहुविध सूचना प्रसंस्करण, अनुमान और सारांशीकरण में बदलाव आ रहे हैं। यह शोध पत्र उन अत्याधुनिक तरीकों की जाँच करता है जो वीडियो डेटा का उपयोग करके टक्कर पहचान के लिए एलएलएम का लाभ उठाते हैं। विशेष रूप से, हम विभिन्न संलयन रणनीतियों का एक व्यवस्थित वर्गीकरण प्रस्तुत करते हैं, प्रमुख डेटासेट का सारांश प्रस्तुत करते हैं, मॉडल आर्किटेक्चर का विश्लेषण करते हैं, प्रदर्शन मानकों की तुलना करते हैं, और वर्तमान चुनौतियों और अवसरों पर चर्चा करते हैं, जिससे वीडियो समझ और आधारभूत मॉडल के तेज़ी से बढ़ते अंतःविषय क्षेत्र में भविष्य के शोध के लिए एक आधार मिलता है।

Takeaways, Limitations

Takeaways:
हम एलएलएम और वीएलएम का उपयोग करते हुए वीडियो-आधारित टक्कर पहचान प्रौद्योगिकी में नवीनतम रुझानों का एक व्यापक अवलोकन प्रस्तुत करते हैं।
हम विभिन्न संलयन रणनीतियों, मॉडल आर्किटेक्चर और डेटासेट के व्यवस्थित विश्लेषण के माध्यम से अनुसंधान दिशाएँ प्रस्तुत करते हैं।
भावी अनुसंधान के लिए आधारभूत डेटा प्रदान करता है।
Limitations:
चूंकि यह शोध अभी प्रारंभिक चरण में है, इसलिए अधिक व्यापक प्रयोगों और सत्यापन की आवश्यकता है।
विभिन्न वातावरणों और स्थितियों में सामान्यीकरण प्रदर्शन पर और अधिक शोध की आवश्यकता है।
वास्तविक दुनिया के सिस्टम अनुप्रयोगों (जैसे, वास्तविक समय प्रसंस्करण, एज कंप्यूटिंग) के लिए अतिरिक्त विचार आवश्यक हैं।
👍