대규모 언어 모델(LLM)의 인과 추론 능력 평가를 위한 새로운 벤치마크를 제시. 기존 벤치마크의 한계를 극복하고자, 경제 및 금융 분야의 최고 저널에서 인과 관계를 추출하여 40,379개의 평가 항목으로 구성. 건강, 환경, 기술, 법률, 문화 등 5가지 영역에서 5가지 유형의 과제를 포함. 8개의 최첨단 LLM을 대상으로 실험한 결과, 최고 성능 모델도 57.6%의 정확도에 그침. 모델 규모가 성능 향상으로 이어지지 않으며, 고급 추론 모델조차 기본적인 인과 관계 식별에 어려움을 겪음.