दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

वास्तविक समय में स्वचालित ड्राइविंग के लिए दृष्टि-भाषा का संयोजन: कैमरा, एचडी-मैप और वेपॉइंट का लक्ष्य-केंद्रित क्रॉस-अटेंशन

Created by
  • Haebom

लेखक

संतोष पटापति, त्रिसंत श्रीनिवासन, मुरारी अंबाती

रूपरेखा

XYZ-ड्राइव एक स्वचालित ड्राइविंग सिस्टम है जो एकल विज़न-लैंग्वेज मॉडल को इनपुट के रूप में उपयोग करता है, एक आगे की ओर देखने वाले कैमरा फ्रेम, एक 25 मीटर x 25 मीटर का हवाई मानचित्र और एक अगला वेपॉइंट इनपुट के रूप में लेता है, और स्टीयरिंग और गति आउटपुट करता है। वेपॉइंट टोकन एक हल्के, लक्ष्य-केंद्रित क्रॉस-अटेंशन लेयर का उपयोग करके क्रिया और पाठ्य विवरण, दोनों का समर्थन करते हैं जो प्रासंगिक छवि और मानचित्र पैच को हाइलाइट करता है, और फ़्यूज़ किए गए टोकन को आंशिक रूप से फ़ाइन-ट्यून्ड LLaMA-3.2 11B मॉडल में फीड किया जाता है। MD-NEX आउटडोर-ड्राइविंग बेंचमार्क पर, यह 95% सफलता दर और पथ लंबाई (SPL) द्वारा भारित 0.80 सफलता प्राप्त करता है, जो PhysNav-DG की तुलना में 15% सुधार है, जिसमें टकरावों की संख्या आधी है, और केवल एक ही शाखा का उपयोग करके दक्षता में उल्लेखनीय सुधार हुआ है। हम 16 एब्लेशन अध्ययनों के माध्यम से इस प्रदर्शन सुधार को प्रदर्शित करते हैं।

Takeaways, Limitations

Takeaways:
सटीक, पारदर्शी और वास्तविक समय की स्वायत्त ड्राइविंग को सक्षम करने के लिए दृष्टि, मार्ग-बिंदुओं और मानचित्र जानकारी के प्रारंभिक टोकन-स्तरीय संलयन का प्रदर्शन करता है।
हम प्रदर्शित करते हैं कि एकल दृष्टि-भाषा मॉडल एक साथ स्वचालित ड्राइविंग की सटीकता और दक्षता में सुधार कर सकता है।
हम दर्शाते हैं कि लक्ष्य-संचालित ध्यान तंत्र पर्यवेक्षित सूचना को प्रभावी ढंग से एकीकृत करने में महत्वपूर्ण भूमिका निभाते हैं।
यह विशिष्ट कार्यों (स्वायत्त ड्राइविंग) में वीएलएम को लागू करते समय फाइन-ट्यूनिंग के महत्व पर प्रकाश डालता है।
Limitations:
जैसे-जैसे मानचित्र का रिज़ोल्यूशन घटता जाता है (10 सेमी से 40 सेमी तक), लेन के किनारे धुंधले होते जाते हैं और टकराव की दर बढ़ती जाती है, जिससे उच्च-रिज़ोल्यूशन वाले मानचित्रों की आवश्यकता का संकेत मिलता है।
किसी भी एक मोडैलिटी (विज़न, वेपॉइंट्स, मैप) को हटाने से सफलता दर 11% तक कम हो जाती है, जिससे मोडैलिटीज़ के बीच पूरक भूमिकाओं पर निर्भरता बेहद ज़रूरी हो जाती है। मोडैलिटीज़ के बीच मज़बूती ज़रूरी है।
👍