Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Cobblestone: Một phương pháp chia để trị để tự động hóa xác minh chính thức

Created by
  • Haebom

Tác giả

Saketh Ram Kasibatla,Arpan Agarwal,Yuriy Brun,Sorin Lerner,Talia Ringer,Emily First

Phác thảo

Bài báo này đề xuất Cobblestone, một công cụ tổng hợp chứng minh mới tận dụng mô hình ngôn ngữ quy mô lớn (LLM) để cải thiện hiệu quả xác minh hình thức bằng các trợ lý chứng minh như Coq. Cobblestone tạo ra các chứng minh tiềm năng bằng LLM, sau đó được sử dụng để chia nhỏ vấn đề. Nó tự động xác định các phần đã được chứng minh thành công và lặp lại các phần còn lại để cuối cùng đưa ra một chứng minh chính xác. Bất chấp sự không chắc chắn của LLM, Cobblestone đảm bảo tính chính xác của các chứng minh được tạo ra. Kết quả thực nghiệm cho thấy Cobblestone vượt trội hơn các công cụ tiên tiến hiện có, chứng minh nhiều định lý mà các công cụ dựa trên LLM khác không chứng minh được. Hiệu quả của nó được chứng minh bằng chi phí thực hiện trung bình là 1,25 đô la và thời gian chạy là 14,7 phút. Hơn nữa, nó có thể sử dụng đầu vào bên ngoài từ người dùng hoặc các công cụ khác để tận dụng cấu trúc chứng minh hoặc các bổ đề liên quan, chứng minh tới 58% các định lý. Nghiên cứu này chứng minh tiềm năng của việc tận dụng tiến trình từng phần và đầu vào bên ngoài để cải thiện hiệu quả của tự động hóa xác minh hình thức.

Takeaways, Limitations

Takeaways:
Chúng tôi chứng minh rằng tổng hợp bằng chứng sử dụng phương pháp chia để trị sử dụng LLM có thể cải thiện đáng kể hiệu quả của tự động hóa xác minh chính thức.
Nó khắc phục được những hạn chế của các công cụ dựa trên LLM hiện có và đưa ra những khả năng mới để chứng minh nhiều định lý hơn.
Chúng tôi nhấn mạnh tầm quan trọng của các chiến lược nhằm tận dụng hiệu quả tiến độ một phần và đầu vào bên ngoài trong tự động hóa xác minh chính thức.
Cung cấp phương pháp tiết kiệm chi phí để tự động hóa quá trình xác minh chính thức.
Limitations:
ĐIều này phụ thuộc vào hiệu suất của LLM và những hạn chế của LLM có thể ảnh hưởng đến hiệu suất của Cobblestone.
Hiệu suất vẫn có thể bị hạn chế đối với một số loại dọn dẹp nhất định.
Phạm vi của các tập dữ liệu chuẩn có thể bị hạn chế và cần đánh giá hiệu suất trên nhiều loại vấn đề hơn.
👍