본 논문은 대규모 언어 모델(LLM)의 인과 추론 능력을 심층적으로 분석하고, 그 한계와 개선 방향을 제시합니다. 현재 LLM은 주로 매개변수에 내재된 인과 지식에 의존하는 수준 1의 인과 추론만 수행하며, 인간과 같은 수준 2의 인과 추론은 불가능함을 주장합니다. 이를 뒷받침하기 위해, Transformer 기반 LLM의 자기회귀 메커니즘이 본질적으로 인과적이지 않음을 보이고, 새로운 인과 추론 벤치마크인 CausalProbe-2024를 도입하여 기존 벤치마크보다 LLM의 성능 저하를 보여줍니다. 수준 2의 인과 추론을 향상시키기 위해, 일반 지식과 목표 지향적인 프롬프트를 LLM의 인과 추론 과정에 통합하는 G^2-Reasoner 방법을 제안하고, 이를 통해 특히 새로운 상황과 반실제적 상황에서 LLM의 인과 추론 능력이 향상됨을 실험적으로 보여줍니다.