[공지사항]을 빙자한 안부와 근황 
Show more

Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

QuestA: Mở rộng khả năng lập luận trong LLM thông qua việc tăng cường câu hỏi

Created by
  • Haebom

Tác giả

Jiazheng Li, Hong Lu, Kaiyue Wen, Zaiwen Yang, Jiaxuan Gao, Hongzhou Lin, Yi Wu, Jingzhao Zhang

Phác thảo

Trong bài báo này, chúng tôi chỉ ra những hạn chế của RL truyền thống trong việc cải thiện khả năng suy luận đa cấp của các mô hình suy luận ngôn ngữ quy mô lớn (LLM) bằng cách sử dụng học tăng cường (RL) và đề xuất một phương pháp mới, Question Augmentation (QuestA), để giải quyết những hạn chế này. QuestA giảm độ khó của bài toán bằng cách thêm các giải pháp cục bộ trong quá trình học RL, do đó cung cấp nhiều tín hiệu huấn luyện có thông tin hơn. Khi QuestA được áp dụng trong quá trình học RL cho các tác vụ suy luận toán học, hiệu suất Pass@1 và Pass@k được cải thiện, đặc biệt là đối với các bài toán mà RL truyền thống gặp khó khăn. Bằng cách cải thiện hơn nữa khả năng suy luận của các mô hình nguồn mở mạnh mẽ như DeepScaleR và OpenMath Nemotron, chúng tôi đạt được kết quả tiên tiến mới (lần lượt là 67,1%, 59,5% và 35,5%) trên các điểm chuẩn AIME24, AIME25 và HMMT25. Ngoài ra, chúng tôi cung cấp một lời giải thích lý thuyết về lý do tại sao QuestA cải thiện hiệu quả mẫu, đề xuất một phương pháp thực tế và có thể khái quát hóa để mở rộng khả năng suy luận thông qua RL.

Takeaways, Limitations

Takeaways:
Trình bày chiến lược tăng cường câu hỏi (QuestA) hiệu quả để cải thiện hiệu suất suy luận đa cấp của LLM dựa trên học tăng cường.
Khắc phục những hạn chế của RL hiện tại và góp phần cải thiện hiệu suất, đặc biệt là đối với những vấn đề khó.
ĐạT được hiệu suất tiên tiến mới trên các chuẩn AIME24, AIME25 và HMMT25.
Trình bày khả năng học tập hiệu quả thông qua việc cải thiện hiệu quả mẫu.
Cung cấp một phương pháp thực tế và tổng quát để mở rộng khả năng suy luận của LLM dựa trên RL.
Limitations:
Cần có thêm các thí nghiệm và phân tích để xác định khả năng khái quát hóa của phương pháp đề xuất. (Văn bản có đề cập đến khả năng khái quát hóa, nhưng không nêu rõ hạn chế cụ thể nào.)
Cần phải đánh giá khả năng áp dụng và hiệu suất cho các loại vấn đề suy luận khác.
Thiếu phân tích chi tiết về việc điều chỉnh và tối ưu hóa tham số trong QuestA.
👍