यह शोधपत्र रोबोट सीखने के लिए बड़े पैमाने पर दृश्य डेटा उत्पन्न करने की समस्या पर विचार करता है। मौजूदा न्यूरल नेटवर्क-आधारित पुनर्निर्माण विधियाँ वास्तविक दुनिया के वातावरणों पर आधारित बड़े पैमाने के बाहरी दृश्यों के पुनर्निर्माण के लिए उपयोगी हैं, लेकिन वे स्थिर वातावरणों तक सीमित हैं और उनमें दृश्य और प्रक्षेप पथ विविधता का अभाव है। इसके विपरीत, हाल के छवि या वीडियो प्रसार मॉडल नियंत्रणीयता प्रदान करते हैं, लेकिन उनमें ज्यामितीय आधार और कार्य-कारण का अभाव होता है। इन सीमाओं को दूर करने के लिए, यह अध्ययन सटीक ज्यामितीय जानकारी के साथ बड़े पैमाने पर 3D ड्राइविंग दृश्यों को सीधे उत्पन्न करने की एक विधि प्रस्तुत करता है। प्रस्तावित विधि प्रॉक्सी ज्यामिति और वातावरण निरूपण निर्माण को सीखे गए 2D छवि पूर्वदर्शों से स्कोर आसवन के साथ जोड़ती है, जिससे उच्च नियंत्रणीयता मिलती है और मानचित्र लेआउट के आधार पर यथार्थवादी और ज्यामितीय रूप से सुसंगत 3D जटिल ड्राइविंग दृश्यों का निर्माण संभव होता है।