यह पेपर टोकन दक्षता में सुधार करने के लिए एक नई वास्तुकला प्रस्तुत करता है, इस वास्तविकता को ध्यान में रखते हुए कि बड़े पैमाने पर भाषा मॉडल (एलएलएम) कम्प्यूटेशनल बाधाओं के बजाय डेटा बाधाओं के अधीन हैं। हम एक 2-सरलीकृत ट्रांसफॉर्मर का प्रस्ताव करते हैं, जो पारंपरिक डॉट-प्रोडक्ट ध्यान को एक ट्रिलिनियर फ़ंक्शन में सामान्यीकृत करता है, और प्रयोगात्मक रूप से प्रदर्शित करता है कि यह ट्राइटन कर्नेल का उपयोग करके एक कुशल कार्यान्वयन के माध्यम से मानक ट्रांसफॉर्मर पर बेहतर टोकन दक्षता प्राप्त करता है। विशेष रूप से, हम प्रदर्शित करते हैं कि समान आकार के मॉडल गणित, कोडिंग, तर्क और तर्क-संबंधी कार्यों के लिए एक निश्चित टोकन बजट के तहत डॉट-प्रोडक्ट ध्यान-आधारित मॉडल से बेहतर प्रदर्शन करते हैं, और हम ज्ञान और तर्क कार्यों के लिए स्केलिंग कानून के घातीय परिवर्तन का मात्रात्मक विश्लेषण करते हैं।