यह पत्र बड़े पैमाने के वास्तविक-विश्व डेटासेट से मज़बूत स्वायत्त ड्राइविंग नीतियों को सीखने की समस्या को संबोधित करता है। ऑनलाइन डेटा संग्रह की चुनौतियों पर विचार करते हुए, हम व्यवहार क्लोनिंग (बीसी) तकनीक पर आधारित मॉडलों की एक श्रृंखला प्रस्तावित करते हैं और कई बीसी बेसलाइन मॉडलों की तुलना और अध्ययन करते हैं, जिसमें एक ट्रांसफॉर्मर-आधारित इकाई-केंद्रित अवस्था प्रतिनिधित्व मॉडल भी शामिल है। हालाँकि, बीसी मॉडल दीर्घकालिक सिमुलेशन में कमजोरियाँ प्रदर्शित करते हैं। इसे संबोधित करने के लिए, हम अधिक मज़बूत नीतियों को सीखने के लिए उसी डेटा और आर्किटेक्चर पर कंजर्वेटिव क्यू-लर्निंग (सीक्यूएल), एक अत्याधुनिक ऑफ़लाइन सुदृढीकरण सीखने वाला एल्गोरिदम, लागू करते हैं। सावधानीपूर्वक डिज़ाइन किए गए रिवॉर्ड फ़ंक्शन का उपयोग करके, सीक्यूएल एजेंट एक रूढ़िवादी मूल्य फ़ंक्शन सीखता है जो छोटी त्रुटियों से उबरता है और वितरण-से-बाहर की स्थितियों से बचता है यह स्थैतिक विशेषज्ञ डेटा से मजबूत, दीर्घकालिक स्वायत्त ड्राइविंग नीतियों को सीखने के लिए ऑफ़लाइन सुदृढीकरण सीखने के तरीकों के महत्व को दर्शाता है।