Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Một khuôn khổ xây dựng dữ liệu đào tạo hiệu quả và chính xác cho mô hình phần thưởng được giám sát theo quy trình trong lý luận toán học

Created by
  • Haebom

Tác giả

Ngụy Tôn, Càn Long Độ, Phục Vi Thôi, Gia Quân Trương

Phác thảo

Trong bài báo này, chúng tôi đề xuất EpicPRM, một khuôn khổ mới để cải thiện khả năng suy luận toán học của các mô hình ngôn ngữ quy mô lớn (LLM). Các phương pháp tạo dữ liệu hiện có để học các mô hình phần thưởng có giám sát quy trình (PRM) có những hạn chế ở chỗ chúng tốn kém hoặc chất lượng thấp, chẳng hạn như chú thích thủ công hoặc ước lượng Monte Carlo từng bước. EpicPRM định lượng đóng góp của từng bước suy luận trung gian và chú thích nó, đồng thời cải thiện độ chính xác và hiệu quả của chú thích bằng thuật toán tìm kiếm nhị phân thích ứng. Nhờ đó, chúng tôi xây dựng hiệu quả một tập dữ liệu học có giám sát quy trình chất lượng cao, Epic50k, bao gồm 50.000 bước trung gian được chú thích. Các PRM được huấn luyện bằng Epic50k cho thấy hiệu suất tốt hơn đáng kể so với các PRM sử dụng các tập dữ liệu công khai hiện có. Epic50k có sẵn trên GitHub.

Takeaways, Limitations

Takeaways:
Một khuôn khổ mới (EpicPRM) cải thiện hiệu quả khả năng suy luận toán học trong LLM được trình bày
Xây dựng và phát hành bộ dữ liệu học có giám sát quy trình chất lượng cao (Epic50k)
Trình bày phương pháp tạo chú thích hiệu quả và chính xác hơn so với các phương pháp hiện có
PRM sử dụng Epic50k vượt trội hơn các phương pháp hiện có
Limitations:
Cần nghiên cứu thêm để xác định xem hiệu suất của EpicPRM có áp dụng được cho các loại vấn đề suy luận khác hoặc các kiến trúc LLM khác hay không.
Kích thước của tập dữ liệu Epic50k có thể tương đối nhỏ so với các tập dữ liệu lớn hơn.
Cần nghiên cứu thêm về cài đặt tham số tối ưu của thuật toán tìm kiếm nhị phân thích ứng.
👍