Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

CP-Bench: Đánh giá các mô hình ngôn ngữ lớn để mô hình hóa ràng buộc

Created by
  • Haebom

Tác giả

Kostis Michailidis, Dimos Tsouros, Tias Guns

Phác thảo

Bài báo này nêu bật những khó khăn trong việc phổ biến mô hình lập trình ràng buộc (CP) do tính chuyên môn cao của nó. Để giải quyết vấn đề này, chúng tôi trình bày một nghiên cứu về tự động hóa mô hình CP bằng cách sử dụng các mô hình ngôn ngữ quy mô lớn (LLM). Để giải quyết vấn đề hạn chế về bộ dữ liệu đánh giá vốn có trong các nghiên cứu hiện có, chúng tôi trình bày CP-Bench, một chuẩn mực mới bao gồm nhiều bài toán tối ưu hóa tổ hợp. Sử dụng CP-Bench, chúng tôi so sánh và đánh giá hiệu suất mô hình hóa của LLM cho ba hệ thống mô hình CP với các mức độ trừu tượng hóa và cú pháp khác nhau. Chúng tôi đánh giá một cách có hệ thống các phương pháp tính toán dựa trên dấu nhắc và thời gian suy luận, đạt được độ chính xác lên đến 70%. Đặc biệt, chúng tôi chứng minh rằng việc sử dụng một nền tảng Python cấp cao mang lại hiệu suất cao hơn.

Takeaways, Limitations

Takeaways:
Chúng tôi xin giới thiệu CP-Bench, một chuẩn mực mới chứng minh tiềm năng của mô hình hóa tự động CP bằng cách sử dụng LLM.
Hiệu quả của khuôn khổ cấp cao được xác nhận thông qua đánh giá hiệu suất so sánh của LLM với nhiều hệ thống mô hình CP khác nhau.
Đề Xuất tiềm năng cải thiện độ chính xác của mô hình (lên đến 70%) thông qua các phương pháp cải tiến để tính toán thời gian suy luận và kỹ thuật nhanh chóng.
Limitations:
Phạm vi vấn đề của CP-Bench có thể không bao quát được toàn bộ các vấn đề CP trong thế giới thực.
Các hệ thống mô hình hóa LLM và CP được đánh giá có thể còn hạn chế. Cần nghiên cứu thêm về nhiều loại LLM và hệ thống khác nhau.
Độ Chính xác 70% vẫn cho thấy còn nhiều tiềm năng cải thiện. Cần có bằng Thạc sĩ Luật (LLM) tinh vi hơn và các kỹ thuật thiết kế nhanh chóng hơn.
👍