Bài báo này đề xuất InfoCausalQA, một chuẩn mực mới để đánh giá khả năng suy luận nhân quả của các mô hình ngôn ngữ thị giác (VLM). InfoCausalQA bao gồm hai nhiệm vụ: suy luận nhân quả định lượng và suy luận nhân quả ngữ nghĩa. InfoCausalQA đánh giá suy luận nhân quả dựa trên đồ họa thông tin, kết hợp dữ liệu trực quan có cấu trúc với thông tin văn bản. Sử dụng GPT-4, chúng tôi đã tạo ra 1.482 cặp câu hỏi-trả lời trắc nghiệm dựa trên 494 cặp đồ họa thông tin-văn bản được thu thập từ bốn nguồn công khai. Các cặp này đã được xem xét thủ công để đảm bảo rằng câu trả lời không thể chỉ được suy ra từ các manh mối hời hợt. Kết quả thử nghiệm cho thấy các VLM hiện tại thể hiện khả năng hạn chế về cả suy luận nhân quả tính toán và ngữ nghĩa, vượt trội hơn đáng kể so với con người. Điều này nhấn mạnh nhu cầu cải thiện khả năng suy luận nhân quả bằng cách sử dụng thông tin dựa trên đồ họa thông tin.