Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Klear-Reasoner: Nâng cao khả năng suy luận thông qua tối ưu hóa chính sách cắt giữ nguyên độ dốc

Created by
  • Haebom

Tác giả

Zhenpeng Su, Leiyu Pan, Xue Bai, Dening Liu, Guanting Dong, Jiaming Huang, Wenping Hu, Fuzheng Zhang, Kun Gai, Guorui Chu

Phác thảo

Klear-Reasoner là một mô hình có khả năng suy luận dài hạn, thể hiện sự cân nhắc cẩn thận trong quá trình giải quyết vấn đề và đạt hiệu suất vượt trội trên nhiều chuẩn mực. Các mô hình suy luận hiện tại gặp khó khăn trong việc tái tạo các mô hình hiệu suất cao do không tiết lộ đầy đủ chi tiết đào tạo. Bài báo này phân tích toàn bộ quy trình, từ chuẩn bị dữ liệu, tinh chỉnh bản đồ Chuỗi suy nghĩ dài (CoT SFT dài) và học tăng cường (RL). Kết quả thử nghiệm trên dữ liệu SFT chứng minh rằng một số ít nguồn dữ liệu chất lượng cao hiệu quả hơn một số lượng lớn các nguồn dữ liệu đa dạng và việc sử dụng các mẫu thử thách mà không có bộ lọc độ chính xác mang lại kết quả tốt hơn. Hơn nữa, để giải quyết hai vấn đề chính với các cơ chế cắt RL hiện có (cắt chặn các tín hiệu thăm dò quan trọng và bỏ qua các đường dẫn không tối ưu), chúng tôi đề xuất Tối ưu hóa Chính sách Cắt Bảo toàn Gradient (GPPO). GPPO truyền ngược gradient một cách trơn tru từ các mã thông báo bị cắt để tăng cường khả năng khám phá của mô hình và cải thiện việc học từ các mẫu âm. Klear-Reasoner thể hiện kỹ năng lập luận tuyệt vời trong toán học và lập trình, đạt 90,5% trên AIME 2024, 83,2% trên AIME 2025, 66,0% trên LiveCodeBench V5 và 58,1% trên LiveCodeBench V6.

Takeaways, Limitations

Takeaways:
Trình bày chiến lược dữ liệu SFT hiệu quả bằng cách sử dụng dữ liệu chất lượng cao, khối lượng nhỏ.
Nhấn mạnh tầm quan trọng của các mẫu khó
Đề Xuất thuật toán GPPO giải quyết các vấn đề của cơ chế cắt RL hiện có.
Chúng tôi trình bày mô hình Klear-Reasoner, mô hình này chứng minh hiệu suất tuyệt vời trong việc giải quyết các vấn đề toán học và lập trình.
Limitations:
Cần phải xác minh thêm hiệu suất tổng quát của phương pháp được trình bày trong bài báo.
Cần phải phân tích so sánh thuật toán GPPO với các thuật toán RL khác.
Cần nghiên cứu thêm về khả năng mở rộng và những hạn chế của mô hình Klear-Reasoner.
👍