본 논문은 명시적 인과 추론 능력 평가를 위한 새로운 데이터셋 ExpliCa를 소개합니다. ExpliCa는 다양한 언어적 순서로 제시되고 언어적 연결어로 명시적으로 표현된 인과 관계와 시간적 관계를 통합합니다. 크라우드소싱을 통해 수집된 인간의 수용성 평가를 포함하고 있으며, 7개의 상용 및 오픈소스 LLMs를 대상으로 프롬프팅 및 퍼플렉서티 기반 지표를 통해 평가하였습니다. 평가 결과, 최상위 모델조차 0.80의 정확도에 도달하지 못했으며, 모델들이 시간적 관계와 인과 관계를 혼동하는 경향이 있고, 성능은 사건의 언어적 순서에 크게 영향을 받는다는 것을 밝혔습니다. 또한, 퍼플렉서티 기반 점수와 프롬프팅 성능은 모델 크기에 따라 다르게 영향을 받는다는 것을 확인했습니다.