본 논문은 대규모 언어 모델(LLM)의 인과 추론 능력을 실제 세계 텍스트를 기반으로 평가한 연구입니다. 기존 연구들이 단순한 인과 관계를 명시적으로 포함한 인공적으로 생성된 텍스트에 초점을 맞춘 것과 달리, 본 연구는 학술 문헌에서 추출한 다양한 길이, 복잡성, 도메인을 가진 실제 텍스트를 활용하여 LLM의 인과 추론 능력을 평가하는 새로운 벤치마크를 제시합니다. 실험 결과, 최첨단 LLM조차도 평균 F1 점수 0.477에 그치는 등 상당한 어려움을 보였으며, 암시적으로 진술된 정보 처리, 관련 인과 요인과 주변 문맥 정보의 구분, 긴 텍스트 구절에 걸쳐 관련 정보 연결 등의 어려움이 주요 원인으로 분석되었습니다. 본 연구의 벤치마크는 LLM의 인과 추론 능력 향상을 위한 후속 연구에 중요한 통찰력을 제공합니다.