Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

ExpliCa: Đánh giá lý luận nhân quả rõ ràng trong các mô hình ngôn ngữ lớn

Created by
  • Haebom

Tác giả

Martina Miliani, Serena Auriemma, Alessandro Bondielli, Emmanuele Chersoni, Lucia Passaro, Irene Sucameli, Alessandro Lenci

Phác thảo

Trong bài báo này, chúng tôi giới thiệu ExpliCa, một bộ dữ liệu mới dùng để đánh giá suy luận nhân quả rõ ràng. ExpliCa tích hợp các mối quan hệ nhân quả và thời gian được trình bày theo nhiều trật tự ngôn ngữ khác nhau và được thể hiện rõ ràng dưới dạng các kết nối ngôn ngữ. Bộ dữ liệu này bao gồm các đánh giá mức độ chấp nhận của con người được cộng đồng đóng góp và được đánh giá dựa trên bảy chương trình Thạc sĩ Luật học (LLM) thương mại và mã nguồn mở, sử dụng các phép đo dựa trên sự gợi ý và độ phức tạp. Kết quả của chúng tôi cho thấy ngay cả những mô hình được xếp hạng cao nhất cũng không đạt độ chính xác 0,80, cho thấy các mô hình có xu hướng nhầm lẫn giữa các mối quan hệ nhân quả và thời gian, và hiệu suất bị ảnh hưởng mạnh mẽ bởi trật tự ngôn ngữ của các sự kiện. Chúng tôi cũng nhận thấy rằng điểm số dựa trên sự phức tạp và hiệu suất gợi ý bị ảnh hưởng khác nhau bởi kích thước mô hình.

Takeaways, Limitations

Takeaways: Chúng tôi trình bày một tập dữ liệu mới, ExpliCa, để đánh giá khả năng suy luận nhân quả rõ ràng, cho phép phân tích sâu hơn về khả năng suy luận nhân quả của các LLM. Chúng tôi trình bày rõ ràng những hạn chế trong khả năng suy luận nhân quả của các LLM, đồng thời chỉ ra những vấn đề chính như sự nhầm lẫn giữa mối quan hệ thời gian và nhân quả, cũng như ảnh hưởng của trật tự ngôn ngữ. Chúng tôi cung cấp những hiểu biết mới về mối tương quan giữa quy mô mô hình và hiệu suất.
Limitations: Cần đánh giá thêm về quy mô và tính đa dạng của tập dữ liệu ExpliCa. Cần thảo luận về phương pháp gợi ý và thước đo độ khó hiểu được sử dụng trong quá trình đánh giá. Cần nghiên cứu thêm về các loại bài toán suy luận nhân quả và cấu trúc câu phức tạp đa dạng hơn.
👍