Bài báo này trình bày một phương pháp mới để cải thiện khả năng giải quyết vấn đề phức tạp của các mô hình ngôn ngữ quy mô lớn (LLM) thông qua học tăng cường. Học tăng cường thông thường đòi hỏi các tín hiệu phần thưởng có thể kiểm chứng, thường tốn kém và không thực tế trong mọi lĩnh vực. Nghiên cứu này chứng minh rằng LLM có thể tận dụng tính bất đối xứng giữa quá trình tạo và xác thực để tự đánh giá và cải thiện mà không cần giải pháp tham chiếu. Bằng cách triển khai tự đánh giá bằng các câu đố đếm ngược và các bài toán tích hợp, chúng tôi đạt được hiệu suất tương đương với các phương pháp xác thực thông thường. Cụ thể, mô hình Qwen 2.5 7B DeepSeek Distilled được huấn luyện với cơ chế tự thưởng đã đạt được hiệu suất tương đương với kết quả đạt được trong cuộc thi MIT Integration Bee. Kết hợp với việc tạo bài toán tổng hợp, chúng tôi thiết lập một vòng lặp tự cải tiến hoàn chỉnh, trong đó mô hình tự tạo, giải quyết và đánh giá các bài toán. Điều này chứng minh rằng học tăng cường có thể được áp dụng trong nhiều lĩnh vực trước đây bị hạn chế bởi độ khó của thiết kế phần thưởng. Đây là một bước tiến đáng kể hướng tới các hệ thống AI tự động, liên tục cải thiện thông qua việc tự học mà không cần sự can thiệp của con người.