यह शोधपत्र प्रश्न करता है कि क्या बड़े पैमाने के भाषा मॉडल (LLM) पूर्वानुमान और निर्माण के लिए कारणात्मक ज्ञान का प्रभावी ढंग से लाभ उठा सकते हैं। हम प्रयोगात्मक रूप से प्रदर्शित करते हैं कि बड़े पैमाने के डेटा पर सीधे प्रशिक्षित LLM, वास्तविक कारणात्मक संबंधों के बजाय नकली सहसंबंधों को सीखते हैं, जिसके परिणामस्वरूप खराब प्रदर्शन होता है, विशेष रूप से आउट-ऑफ-डिस्ट्रीब्यूशन (OOD) परिदृश्यों में। इस समस्या के समाधान के लिए, हम कॉज़ल अटेंशन ट्यूनिंग (CAT) का प्रस्ताव करते हैं, जो ध्यान तंत्र में सूक्ष्म कारणात्मक ज्ञान को अंतःक्षेपित करने की एक नवीन विधि है। CAT पूर्व मानव ज्ञान का उपयोग करके स्वचालित रूप से टोकन-स्तरीय कारणात्मक संकेत उत्पन्न करता है और प्रशिक्षण को निर्देशित करने के लिए एक पुनः-ध्यान तंत्र प्रस्तुत करता है, जिससे मॉडल को कारणात्मक संरचनाओं पर ध्यान केंद्रित करने और ध्यान स्कोर में शोर और पूर्वाग्रह को कम करने में मदद मिलती है। प्रस्तावित स्पूरियस टोकन गेम (STG) बेंचमार्क और कई डाउनस्ट्रीम कार्यों पर प्रायोगिक परिणाम प्रदर्शित करते हैं कि CAT पूर्वानुमान के लिए कारणात्मक ज्ञान का प्रभावी ढंग से लाभ उठाता है और OOD परिदृश्यों में मज़बूत है। CAT, STG डेटासेट पर 5.76% और डाउनस्ट्रीम कार्यों पर 1.56% का औसत प्रदर्शन सुधार प्राप्त करता है। विशेष रूप से, लामा-3.1-8B मॉडल के STG_M में OOD प्रदर्शन 64.5% से बढ़कर 90.5% हो गया, और क्वेन मॉडल के STG_H में OOD प्रदर्शन 25.4% से बढ़कर 55.9% हो गया।