दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

ऑटोमोटिव यूआई के विज़ुअल ग्राउंडिंग और विश्लेषण के लिए विज़न-लैंग्वेज मॉडल का लाभ उठाना

Created by
  • Haebom

लेखक

बेंजामिन राफेल अर्नहोफर, डेनियल प्रोखोरोव, जैनिका लैंगनर, डोमिनिक बोलमैन

रूपरेखा

यह शोधपत्र एक विज़न-लैंग्वेज ढाँचा प्रस्तुत करता है जो ऑटोमोटिव इंफोटेनमेंट सिस्टम में विविध UI डिज़ाइन परिवर्तनों के अनुकूल होने के लिए एक बुद्धिमान और अनुकूली समाधान प्रदान करता है। यह ऑटोमोटिव UI को समझने और उनके साथ सहभागिता को सुगम बनाता है, जिससे विविध UI डिज़ाइनों में निर्बाध अनुकूलन संभव होता है। इस लक्ष्य को प्राप्त करने के लिए, हमने AutomotiveUI-Bench-4K ओपन-सोर्स डेटासेट जारी किया है, जिसमें 998 चित्र और 4,208 एनोटेशन शामिल हैं, और प्रशिक्षण डेटा निर्माण के लिए एक डेटा पाइपलाइन प्रस्तुत की है। हमने LoRa (निम्न-रैंक अनुकूलन) का उपयोग करके एक Molmo-7B-आधारित मॉडल को परिष्कृत किया है और दृश्य-आधारित और मूल्यांकन कार्यों को एकीकृत करके एक मूल्यांकनात्मक वृहद क्रिया मॉडल (ELAM) विकसित किया है। विकसित ELAM AutomotiveUI-Bench-4K पर उच्च प्रदर्शन प्राप्त करता है, और विशेष रूप से, ScreenSpot कार्य पर बेसलाइन मॉडल से 5.6% बेहतर प्रदर्शन करता है (औसत सटीकता 80.8%)। यह डेस्कटॉप, मोबाइल और वेब प्लेटफ़ॉर्म के लिए विशिष्ट मॉडलों के समान या उनसे बेहतर प्रदर्शन करता है, और मुख्य रूप से ऑटोमोटिव क्षेत्र में प्रशिक्षित होने के बावजूद, यह उत्कृष्ट डोमेन सामान्यीकरण प्रदर्शित करता है। यह अध्ययन डेटा संग्रह और फाइन-ट्यूनिंग के माध्यम से ऑटोमोटिव यूआई समझ और इंटरैक्शन में एआई-आधारित प्रगति के लिए एक दिशा प्रस्तुत करता है, जो एक फाइन-ट्यून्ड मॉडल प्रदान करता है जिसे लागत प्रभावी तरीके से उपभोक्ता-ग्रेड जीपीयू पर तैनात किया जा सकता है।

Takeaways, Limitations

Takeaways:
एक विज़न-लैंग्वेज फ्रेमवर्क प्रस्तुत करना जो ऑटोमोटिव यूआई में विभिन्न डिज़ाइन परिवर्तनों के अनुकूल हो सकता है।
ओपन-सोर्स डेटासेट ऑटोमोटिवयूआई-बेंच-4K जारी करके अनुसंधान को सक्षम बनाना
लागत प्रभावी लोरा-आधारित फाइन-ट्यूनिंग विधि प्रस्तुत करना और उपभोक्ता-ग्रेड जीपीयू को तैनात करने की व्यवहार्यता की पुष्टि करना।
स्क्रीनस्पॉट कार्य में मौजूदा मॉडलों की तुलना में बेहतर प्रदर्शन और बेहतर डोमेन सामान्यीकरण क्षमताओं का प्रदर्शन किया गया।
ऑटोमोटिव यूआई को समझने और उसके साथ बातचीत करने में एआई-आधारित प्रगति प्रस्तुत की गई है।
Limitations:
डेटासेट का आकार और अधिक विस्तारित करने की आवश्यकता है (विभिन्न स्थितियों को पर्याप्त रूप से प्रतिबिंबित करने के लिए 998 छवियां पर्याप्त नहीं हो सकती हैं)।
विशिष्ट कार यूआई डिज़ाइन के प्रति पक्षपात की संभावना है।
वास्तविक दुनिया के ड्राइविंग वातावरण में प्रदर्शन सत्यापन का अभाव
विभिन्न भाषाओं के लिए समर्थन और सांस्कृतिक अंतरों पर विचार का संभावित अभाव
दीर्घकालिक उपयोग से होने वाली प्रदर्शन गिरावट और स्थिरता पर आगे अनुसंधान की आवश्यकता है।
👍