Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Seed-Prover: Lý luận sâu rộng cho việc chứng minh định lý tự động

작성자
  • Haebom

Tác giả

Luoxin Chen, Jinming Gu, Liankai Huang, Wenhao Huang, Zhi Cheng Jiang, Allan Jie, Xiaoran Jin, Yang, Huaiyuan Ying, Hongyi Yuan, Zheng Yuan, Tianyang Zhan, Chi Zhang, Yue Zhang, Ge Zhang, Tianyun Zhao, Jianqiu Zhao, Yichi Chu, Thomas Hanwen Zhu

Phác thảo

Bài báo này đề xuất một mô hình mới, được gọi là Seed-Prover, để tăng cường khả năng suy luận toán học của các mô hình ngôn ngữ quy mô lớn (LLM). Seed-Prover tận dụng Lean, một ngôn ngữ xác minh chính thức, để cải thiện quy trình chứng minh theo từng bước thông qua học tăng cường. Chúng tôi thiết kế ba chiến lược suy luận để giải quyết các vấn đề cấp độ IMO. Mô hình của chúng tôi chứng minh được 78,1% các vấn đề IMO trước đây, đạt hiệu suất tiên tiến trên tập dữ liệu MiniF2F và vượt trội hơn PutnamBench hơn 50%. Điều này vượt trội đáng kể so với các phương pháp hiện có. Hơn nữa, để giải quyết vấn đề thiếu hỗ trợ hình học của Lean, chúng tôi đã phát triển thêm một công cụ suy luận hình học có tên là Seed-Geometry, chứng minh thành công năm trong số sáu vấn đề trong thử thách IMO 2025. Điều này thể hiện một bước tiến đáng kể trong lĩnh vực suy luận toán học tự động tận dụng xác minh chính thức và tư duy dài hạn.

Takeaways, Limitations

Takeaways:
Đã Có những tiến bộ to lớn trong lĩnh vực chứng minh định lý toán học bằng LLM.
Chúng tôi đã chứng minh tính hiệu quả của phương pháp học tăng cường bằng cách sử dụng các ngôn ngữ chính thức như Lean.
Seed-Prover và Seed-Geometry vượt trội hơn hẳn các hệ thống suy luận toán học tự động hiện có.
Tính thực tiễn của mô hình đã được kiểm chứng thông qua việc tham gia thực tế vào IMO 2025.
Limitations:
Nó phụ thuộc nhiều vào các ngôn ngữ tinh gọn. Cần nghiên cứu để khám phá khả năng mở rộng của nó sang các ngôn ngữ chính thức khác.
Cần có phần mở rộng hỗ trợ hình học bao gồm Seed-Geometry.
Bạn có thể không giải được mọi bài toán và bạn có thể giỏi một số dạng bài toán nhất định.
Thiếu sự phân tích về độ phức tạp tính toán và thời gian xử lý.
👍