ट्रांसफॉर्मर परतों में उभरती अवधारणाओं की खोज की चुनौती का समाधान करने के लिए, यह शोधपत्र एक क्रॉस-लेयर VQ-VAE (CLVQ-VAE) ढाँचा प्रस्तावित करता है। अवशिष्ट धारा में सूचना के रैखिक मिश्रण और अतिरेक के कारण, एक बड़े पैमाने के भाषा मॉडल में विशेषताएँ कैसे विकसित होती हैं, यह समझने की कठिनाई को दूर करने के लिए, हम कई परतों में अभ्यावेदन को मैप करने और अतिरेक अवशिष्ट धारा विशेषताओं को संक्षिप्त और व्याख्या योग्य अवधारणा सदिशों में संक्षिप्त करने के लिए वेक्टर क्वांटिज़ेशन का उपयोग करते हैं। विशेष रूप से, हम असतत अव्यक्त स्थान को नियंत्रित करने और कोडबुक विविधता बनाए रखने के लिए शीर्ष-k तापमान-आधारित नमूनाकरण और EMA कोडबुक अद्यतनीकरण को संयोजित करते हैं, और इसे अर्थ संरचना के साथ बेहतर ढंग से संरेखित करने के लिए स्केल्ड-गोलाकार k-मीन्स++ का उपयोग करके कोडबुक को आरंभीकृत करते हैं।