यह शोधपत्र ट्रांसफॉर्मर-आधारित आर्किटेक्चर, जो बड़े पैमाने के भाषा मॉडलों का मूल ढाँचा है, में स्व-ध्यान तंत्रों की द्विघात समय और स्मृति जटिलता को संबोधित करने के लिए कुशल ध्यान तंत्रों में अनुसंधान प्रवृत्तियों का व्यापक विश्लेषण करता है। विशेष रूप से, हम दो प्रमुख दृष्टिकोणों—रैखिक ध्यान और विरल ध्यान—पर ध्यान केंद्रित करते हैं, जो एल्गोरिथम नवाचारों और हार्डवेयर संबंधी विचारों को एकीकृत करते हैं। उन मामलों का विश्लेषण करके जहाँ कुशल ध्यान तंत्रों को बड़े पैमाने के पूर्व-प्रशिक्षित भाषा मॉडलों पर लागू किया गया है, दोनों आर्किटेक्चर केवल कुशल ध्यान और स्थानीय तथा वैश्विक घटकों को मिलाकर हाइब्रिड डिज़ाइनों से युक्त हैं, हमारा उद्देश्य स्केलेबल और कुशल भाषा मॉडल डिज़ाइन करने के लिए एक आधार प्रदान करना है।