Bài báo này đề xuất NOVER (Học Tăng cường Không Kiểm chứng), một khuôn khổ mới cho học tăng cường mà không cần kiểm chứng bên ngoài. Các phương pháp học khuyến khích thông thường dựa vào kiểm chứng bên ngoài, hạn chế khả năng ứng dụng của chúng trong các lĩnh vực như toán học và mã hóa, nơi không dễ dàng có sẵn kiểm chứng. Tuy nhiên, NOVER cho phép học khuyến khích chỉ sử dụng dữ liệu tinh chỉnh học có giám sát tiêu chuẩn. Áp dụng cho nhiều tác vụ chuyển đổi văn bản sang văn bản, NOVER vượt trội hơn 7,7% so với các mô hình có kích thước tương tự được chắt lọc từ các mô hình suy luận quy mô lớn như DeepSeek R1 671B. Hơn nữa, nó mang đến những khả năng mới cho việc tối ưu hóa mô hình ngôn ngữ quy mô lớn, chẳng hạn như học khuyến khích ngược.