Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

CrossWordBench: Đánh giá khả năng suy luận của LLM và LVLM với khả năng tạo câu đố có thể kiểm soát

Created by
  • Haebom

Tác giả

Jixuan Leng, Chengsong Huang, Langlin Huang, Bill Yuchen Lin, William W. Cohen, Haohan Wang, Jiaxin Huang

Phác thảo

CrossWordBench là một chuẩn mực mới đánh giá khả năng lập luận thông qua sự tương tác giữa các gợi ý dựa trên văn bản và cấu trúc lưới trực quan. Nó sử dụng các câu đố ô chữ cho cả mô hình ngôn ngữ quy mô lớn (LLM) và mô hình ngôn ngữ thị giác quy mô lớn (LVLM), cung cấp các câu đố ở cả định dạng văn bản và hình ảnh, đồng thời cho phép thay đổi độ khó bằng cách điều chỉnh tỷ lệ điền từ điển. Các đánh giá trên hơn 20 mô hình chứng minh rằng các LLM có khả năng lập luận vượt trội hơn đáng kể so với các mô hình không suy luận trong việc giải ô chữ, và LVLM thể hiện mối tương quan chặt chẽ giữa hiệu suất giải ô chữ và độ chính xác của phân tích cú pháp lưới. Nghiên cứu này làm nổi bật những hạn chế của các LLM và LVLM hiện tại về khả năng lập luận và trình bày một phương pháp hiệu quả để tạo ra các nhiệm vụ ràng buộc đa phương thức cho việc đánh giá trong tương lai.

Takeaways, Limitations

Takeaways:
Một tiêu chuẩn mới để đánh giá khả năng suy luận đa phương thức, xem xét sự tương tác giữa văn bản và hình ảnh được trình bày.
Xác định mối tương quan giữa khả năng suy luận của LLM và khả năng phân tích lưới của LVLM
Trình bày một khuôn khổ chuẩn mực linh hoạt cung cấp nhiều mức độ khó và phương pháp đánh giá khác nhau.
Thể hiện rõ ràng những hạn chế về khả năng suy luận của các LLM và LVLM hiện tại.
Limitations:
ĐáNh giá giới hạn ở một nhiệm vụ cụ thể, chẳng hạn như trò chơi ô chữ
Thiếu phân tích chuyên sâu về nguyên nhân gây suy giảm hiệu suất trong LVLM.
Cần nghiên cứu thêm để xác định khả năng khái quát hóa của chuẩn mực.
👍