본 논문은 대규모 언어 모델(LLM)이 인과적 지식을 효과적으로 활용하여 예측 및 생성을 수행할 수 있는지에 대한 질문을 제기합니다. 대규모 데이터로 직접 학습된 LLM은 진정한 인과 관계보다는 허위 상관관계를 학습하여 특히 분포 외(OOD) 시나리오에서 성능이 저하되는 것을 실험적으로 확인했습니다. 이를 해결하기 위해, 본 논문은 주의 메커니즘에 세분화된 인과적 지식을 주입하는 새로운 방법인 Causal Attention Tuning (CAT)을 제안합니다. CAT은 인간의 사전 지식을 활용하여 토큰 수준의 인과 신호를 자동으로 생성하고, 재주의(Re-Attention) 메커니즘을 도입하여 훈련을 유도함으로써 모델이 인과 구조에 집중하도록 돕고 주의 점수의 노이즈와 편향을 완화합니다. 제안된 Spurious Token Game (STG) 벤치마크와 여러 하류 작업에 대한 실험 결과는 CAT이 예측에 인과적 지식을 효과적으로 활용하고 OOD 시나리오에서도 강력함을 보여줍니다. CAT은 STG 데이터셋에서 평균 5.76% 향상, 하류 작업에서 1.56% 향상을 달성했습니다. 특히 Llama-3.1-8B 모델의 STG_M에서 OOD 성능은 64.5%에서 90.5%로, Qwen 모델의 STG_H에서 OOD 성능은 25.4%에서 55.9%로 향상되었습니다.