Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

APOLLO: LLM tự động và cộng tác tinh gọn cho lý luận hình thức nâng cao

Created by
  • Haebom

Tác giả

Azim Ospanov, Farzan Farnia, Roozbeh Yousefzadeh

Phác thảo

APOLLO là một hệ thống chứng minh định lý tự động kết hợp trình biên dịch Lean và sức mạnh lập luận của LLM để chứng minh các định lý toán học. Trong khi các phương pháp chứng minh định lý dựa trên LLM thông thường tạo ra các bằng chứng vượt qua các hệ thống xác minh thông qua hàng nghìn lần lấy mẫu, APOLLO sử dụng một đường ống mô-đun trong đó LLM tạo ra các bằng chứng, các tác nhân sửa lỗi cú pháp trong các bằng chứng, Lean xác định lỗi, cô lập các định lý con bị lỗi, sử dụng trình giải tự động và gọi LLM một cách tiết kiệm chi phí cho các mục tiêu còn lại. Quá trình kết hợp lại và xác minh lại các bằng chứng con đã sửa này được lặp lại cho đến số lần thử tối đa do người dùng kiểm soát. Trên chuẩn miniF2F, nó đạt độ chính xác 84,9% đối với các mô hình có ít hơn 8B tham số, trong khi vẫn duy trì chi phí lấy mẫu dưới 100. Hơn nữa, nó cải thiện độ chính xác của GoedelProverSFT lên 65,6% và giảm độ phức tạp của mẫu từ 25.600 xuống còn vài trăm.

Takeaways, Limitations

Takeaways:
Chúng tôi chứng minh rằng việc sửa đổi hướng dẫn biên dịch có mục tiêu đối với đầu ra LLM cải thiện đáng kể hiệu quả và độ chính xác.
Trình bày mô hình chung có khả năng mở rộng để chứng minh định lý tự động.
Độ Chính xác cao đạt được với chi phí lấy mẫu thấp (84,9% trên chuẩn miniF2F, 65,6% trên GoedelProverSFT).
Cải thiện đáng kể độ chính xác của các mô hình mục đích chung (từ 3-7% lên hơn 40%).
Limitations:
Hiện tại, chỉ có hiệu suất cho các điểm chuẩn cụ thể (miniF2F, GoedelProverSFT) được trình bày và khả năng khái quát hóa cho các điểm chuẩn khác hoặc các định lý phức tạp hơn cần được nghiên cứu thêm.
Hiệu suất của APOLLO phụ thuộc vào trình biên dịch LLM và Lean được sử dụng và cần nghiên cứu thêm về khả năng tương thích và tính di động của nó với các hệ thống khác.
Cần nghiên cứu thêm về tối ưu hóa tham số, chẳng hạn như thiết lập số lần thử tối đa có thể kiểm soát được bởi người dùng.
👍