Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

InfoCausalQA: Liệu mô hình có thể thực hiện suy luận nhân quả không rõ ràng dựa trên Infographic không?

Created by
  • Haebom

Tác giả

Keummin Ka, Junhyeong Park, Jaehyun Jeon, Youngjae Yu

Phác thảo

Bài báo này đề xuất InfoCausalQA, một chuẩn mực mới để đánh giá khả năng suy luận nhân quả của các mô hình ngôn ngữ thị giác (VLM). InfoCausalQA bao gồm hai nhiệm vụ: suy luận nhân quả định lượng và suy luận nhân quả ngữ nghĩa. InfoCausalQA đánh giá suy luận nhân quả dựa trên đồ họa thông tin, kết hợp dữ liệu trực quan có cấu trúc với thông tin văn bản. Sử dụng GPT-4, chúng tôi đã tạo ra 1.482 cặp câu hỏi-trả lời trắc nghiệm dựa trên 494 cặp đồ họa thông tin-văn bản được thu thập từ bốn nguồn công khai. Các cặp này đã được xem xét thủ công để đảm bảo rằng câu trả lời không thể chỉ được suy ra từ các manh mối hời hợt. Kết quả thử nghiệm cho thấy các VLM hiện tại thể hiện khả năng hạn chế về cả suy luận nhân quả tính toán và ngữ nghĩa, vượt trội hơn đáng kể so với con người. Điều này nhấn mạnh nhu cầu cải thiện khả năng suy luận nhân quả bằng cách sử dụng thông tin dựa trên đồ họa thông tin.

Takeaways, Limitations

Takeaways:
Chúng tôi xin giới thiệu InfoCausalQA, một chuẩn mực mới để đánh giá suy luận nhân quả dựa trên đồ họa thông tin.
Trình bày rõ ràng những hạn chế về khả năng suy luận nhân quả của VLM hiện tại, đặc biệt là khả năng suy luận nhân quả ngữ nghĩa của chúng.
Đề Xuất hướng nghiên cứu nhằm cải thiện khả năng suy luận nhân quả của hệ thống AI đa phương thức.
Limitations:
Tiêu chuẩn InfoCausalQA có thể tương đối nhỏ (do giới hạn về kích thước tập dữ liệu).
Việc tạo câu hỏi phụ thuộc vào GPT-4. Những hạn chế của GPT-4 có thể ảnh hưởng đến kết quả.
Có thể cần phải xem xét thêm để đảm bảo tính khách quan, dựa vào quy trình xem xét thủ công của con người.
👍