दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

NuPlanQA: बहु-मोडल बड़े भाषा मॉडल में बहु-दृश्य ड्राइविंग दृश्य समझ के लिए एक बड़े पैमाने का डेटासेट और बेंचमार्क

Created by
  • Haebom

लेखक

सुंग-येओन पार्क, कैन कुई, युनशेंग मा, अहमदरेज़ा मोराडिपारी, रोहित गुप्ता, क्यूंगटे हान, ज़िरन वांग

रूपरेखा

यह शोधपत्र NuPlanQA-Eval प्रस्तुत करता है, जो बहुविधीय वृहत्-स्तरीय भाषा मॉडल (MLLM) की ड्राइविंग दृश्य समझ क्षमताओं के मूल्यांकन हेतु एक नवीन मानक है, और वृहत्-स्तरीय डेटासेट NuPlanQA-1M भी प्रस्तुत करता है। NuPlanQA-1M में 10 लाख वास्तविक-विश्व दृश्य प्रश्न-उत्तर (VQA) युग्म हैं, जिन्हें तीन मुख्य कौशलों के अंतर्गत नौ उप-कार्यों में वर्गीकृत किया गया है: सड़क परिवेश पहचान, स्थानिक संबंध पहचान, और आत्मकेंद्रित तर्क। इसके अलावा, हम BEV-LLM का प्रस्ताव करते हैं, जो बहु-दृश्य छवियों से विहंगम दृश्य (BEV) विशेषताओं को MLLM में एकीकृत करता है, यह दर्शाता है कि पारंपरिक MLLM, आत्मकेंद्रित दृष्टिकोणों से ड्राइविंग दृश्य-विशिष्ट पहचान और स्थानिक तर्क के साथ संघर्ष करते हैं। BEV-LLM नौ में से छह उप-कार्यों में अन्य मॉडलों से बेहतर प्रदर्शन करता है, यह दर्शाता है कि BEV को शामिल करने से बहु-दृश्य MLLM का प्रदर्शन बेहतर होता है। NuPlanQA डेटासेट सार्वजनिक रूप से उपलब्ध है।

Takeaways, Limitations

Takeaways:
हम बहु-दृश्य, बहु-मोडल ड्राइविंग दृश्य समझ के लिए एक नया बेंचमार्क (NuPlanQA-Eval) और एक बड़े पैमाने पर डेटासेट (NuPlanQA-1M) प्रस्तुत करते हैं।
हम BEV सुविधाओं (BEV-LLM) को एकीकृत करके MLLM के ड्राइविंग दृश्य समझ प्रदर्शन में सुधार की संभावना प्रस्तुत करते हैं।
मौजूदा एमएलएलएम की दृश्य पहचान और स्थानिक तर्क को संचालित करने के Limitations को स्पष्ट करना।
हम आशा करते हैं कि सार्वजनिक रूप से उपलब्ध डेटासेट के उपयोग के माध्यम से आगे अनुसंधान को बढ़ावा मिलेगा।
Limitations:
प्रस्तावित BEV-LLM का प्रदर्शन सुधार कुछ डेटासेट तक सीमित हो सकता है।
विभिन्न प्रकार के ड्राइविंग वातावरणों और स्थितियों में प्रदर्शन को सामान्य बनाने के लिए और अधिक शोध की आवश्यकता है।
यह तथ्य कि नौ उप-कार्यों में से तीन में इसने अन्य मॉडलों की तुलना में खराब प्रदर्शन किया, यह दर्शाता है कि भविष्य में इसमें सुधार की आवश्यकता है।
👍