Bài báo này đặt câu hỏi liệu các mô hình ngôn ngữ quy mô lớn (LLM) có thể tận dụng hiệu quả kiến thức nhân quả để dự đoán và tạo ra hay không. Chúng tôi chứng minh bằng thực nghiệm rằng các LLM được đào tạo trực tiếp trên dữ liệu quy mô lớn học được các mối tương quan giả tạo thay vì các mối quan hệ nhân quả thực sự, dẫn đến hiệu suất kém, đặc biệt là trong các tình huống ngoài phân phối (OOD). Để giải quyết vấn đề này, chúng tôi đề xuất Điều chỉnh sự chú ý nhân quả (CAT), một phương pháp mới để đưa kiến thức nhân quả chi tiết vào cơ chế chú ý. CAT tự động tạo ra các tín hiệu nhân quả ở cấp độ mã thông báo bằng cách sử dụng kiến thức trước đó của con người và giới thiệu một cơ chế chú ý lại để hướng dẫn đào tạo, giúp mô hình tập trung vào các cấu trúc nhân quả và giảm thiểu nhiễu và sai lệch trong điểm số chú ý. Kết quả thực nghiệm trên điểm chuẩn Trò chơi mã thông báo giả tạo (STG) được đề xuất và một số tác vụ hạ nguồn chứng minh rằng CAT tận dụng hiệu quả kiến thức nhân quả để dự đoán và mạnh mẽ trong các tình huống OOD. CAT đạt được cải thiện hiệu suất trung bình là 5,76% trên tập dữ liệu STG và 1,56% trên các tác vụ hạ nguồn. Đặc biệt, hiệu suất OOD trong STG_M của mô hình Llama-3.1-8B được cải thiện từ 64,5% lên 90,5% và hiệu suất OOD trong STG_H của mô hình Qwen được cải thiện từ 25,4% lên 55,9%.