नेक्सस-जेन एक ऐसा शोधपत्र है जो एक नवीन आर्किटेक्चर का प्रस्ताव करता है जो एक साझा इमेज एम्बेडिंग स्पेस में इमेज समझ, निर्माण और संपादन कार्यों को एकीकृत करता है। इसका उद्देश्य ऑटोरिग्रैसिव और डिफ्यूजन मॉडल की खूबियों को सहजता से एकीकृत करना है ताकि मौजूदा एकीकृत मॉडलों की सीमाओं, जैसे खराब इमेज संश्लेषण गुणवत्ता, ऑटोरिग्रैसिव त्रुटि संचयन, और इमेज संपादन क्षमताओं की कमी, को दूर किया जा सके। विशेष रूप से, हम एक नवीन प्री-फिलिंग ऑटोरिग्रैसिव रणनीति का प्रस्ताव करते हैं जो ऑटोरिग्रैसिव एम्बेडिंग भविष्यवाणी के दौरान गंभीर त्रुटि संचयन को कम करने के लिए इनपुट अनुक्रमों को सीखने योग्य एम्बेडिंग से प्री-फिल करती है। 26.3 मिलियन नमूनों के एक बड़े डेटासेट का उपयोग करके, हम बहु-चरणीय और बहु-कार्य अधिगम करते हैं और इमेज समझ, निर्माण और संपादन कार्यों को कवर करने वाले मूल्यांकन मानकों पर अत्याधुनिक प्रदर्शन प्राप्त करते हैं। सभी मॉडल, डेटासेट और स्रोत कोड GitHub पर सार्वजनिक रूप से उपलब्ध हैं।