Trong bài báo này, chúng tôi đề xuất EpicPRM, một khuôn khổ mới để cải thiện khả năng suy luận toán học của các mô hình ngôn ngữ quy mô lớn (LLM). Các phương pháp tạo dữ liệu hiện có để học các mô hình phần thưởng có giám sát quy trình (PRM) có những hạn chế ở chỗ chúng tốn kém hoặc chất lượng thấp, chẳng hạn như chú thích thủ công hoặc ước lượng Monte Carlo từng bước. EpicPRM định lượng đóng góp của từng bước suy luận trung gian và chú thích nó, đồng thời cải thiện độ chính xác và hiệu quả của chú thích bằng thuật toán tìm kiếm nhị phân thích ứng. Nhờ đó, chúng tôi xây dựng hiệu quả một tập dữ liệu học có giám sát quy trình chất lượng cao, Epic50k, bao gồm 50.000 bước trung gian được chú thích. Các PRM được huấn luyện bằng Epic50k cho thấy hiệu suất tốt hơn đáng kể so với các PRM sử dụng các tập dữ liệu công khai hiện có. Epic50k có sẵn trên GitHub.