Trong bài báo này, chúng tôi giới thiệu ExpliCa, một bộ dữ liệu mới dùng để đánh giá suy luận nhân quả rõ ràng. ExpliCa tích hợp các mối quan hệ nhân quả và thời gian được trình bày theo nhiều trật tự ngôn ngữ khác nhau và được thể hiện rõ ràng dưới dạng các kết nối ngôn ngữ. Bộ dữ liệu này bao gồm các đánh giá mức độ chấp nhận của con người được cộng đồng đóng góp và được đánh giá dựa trên bảy chương trình Thạc sĩ Luật học (LLM) thương mại và mã nguồn mở, sử dụng các phép đo dựa trên sự gợi ý và độ phức tạp. Kết quả của chúng tôi cho thấy ngay cả những mô hình được xếp hạng cao nhất cũng không đạt độ chính xác 0,80, cho thấy các mô hình có xu hướng nhầm lẫn giữa các mối quan hệ nhân quả và thời gian, và hiệu suất bị ảnh hưởng mạnh mẽ bởi trật tự ngôn ngữ của các sự kiện. Chúng tôi cũng nhận thấy rằng điểm số dựa trên sự phức tạp và hiệu suất gợi ý bị ảnh hưởng khác nhau bởi kích thước mô hình.