इस पत्र में, हम स्टैगफॉर्मर (स्टेगर्ड ट्रांसफॉर्मर) का प्रस्ताव करते हैं, जो ट्रांसफॉर्मर-आधारित भाषा मॉडलों की डिकोडिंग प्रक्रिया को समानांतर बनाने के लिए एक नवीन आर्किटेक्चर है। पारंपरिक ट्रांसफॉर्मर के अनुक्रमिक डिकोडिंग दृष्टिकोण के विपरीत, स्टैगफॉर्मर अनुक्रम अक्ष के साथ निष्पादन को अलग-अलग करके मॉडल की गहराई के साथ डिकोडिंग प्रक्रिया को समानांतर बनाता है। यह $L$ परत में $i$-वें समय चरण पर टोकन निरूपण को अक्षम करके, $l-1$ परत में $i$-वें समय चरण तक टोकन निरूपण पर निर्भर रहने से, और इसके बजाय केवल $i-1$-वें समय चरण तक टोकन निरूपण पर निर्भर रहने से प्राप्त होता है। यह मॉडल के विभिन्न खंडों के समानांतर निष्पादन की अनुमति देता है, जिससे गुणवत्ता बनाए रखते हुए डिकोडिंग गति में सुधार होता है। हम विभिन्न एक्सटेंशन का भी पता लगाते हैं, जिनमें वेट शेयरिंग, सीमित विंडो अटेंशन, मल्टी-सेक्शन एक्सटेंशन और पुनरावर्ती मॉडल सन्निकटन शामिल हैं।