इस पत्र में, हम बताते हैं कि स्वायत्त ड्राइविंग के मौजूदा वैश्विक मॉडलों को कठिन परिस्थितियों में दीर्घकालिक भविष्यवाणी और सामान्यीकरण में कठिनाई होती है, और एक ऐसा मॉडल विकसित करते हैं जो सरल डिज़ाइन विकल्पों के माध्यम से अतिरिक्त पर्यवेक्षण या सेंसर (जैसे, मानचित्र, गहराई, कई कैमरे, आदि) के बिना उत्कृष्ट प्रदर्शन प्राप्त करता है। 280 घंटे के वीडियो डेटा पर केवल 469 मिलियन मापदंडों को प्रशिक्षित करने के बावजूद, हम अत्याधुनिक प्रदर्शन प्राप्त करते हैं, खासकर कठिन परिस्थितियों जैसे कि मोड़ युद्धाभ्यास और शहरी यातायात में। इसके अलावा, हम एक हाइब्रिड टोकनाइज़र का उपयोग करके प्रवाह मिलान और असतत टोकन मॉडल पर आधारित एक सतत मॉडल की ताकत और कमजोरियों की सीधे तुलना करते हैं, और निष्कर्ष निकालते हैं कि सतत ऑटोरिग्रैसिव मॉडल व्यक्तिगत डिज़ाइन विकल्पों के लिए कम असुरक्षित और अधिक मजबूत है।