Bài báo này đề xuất một công thức học tăng cường (RL) mới để huấn luyện một mô hình khuếch tán dựa trên điểm số theo thời gian liên tục cho AI tạo sinh. Công thức này tạo ra các mẫu tối đa hóa hàm phần thưởng trong khi vẫn giữ phân phối được tạo gần với phân phối dữ liệu mục tiêu chưa biết. Không giống như các nghiên cứu trước đây, chúng tôi không cố gắng học một hàm điểm số hoặc sử dụng một mô hình được đào tạo trước cho hàm điểm số của một phân phối dữ liệu nhiễu chưa biết. Thay vào đó, chúng tôi xây dựng vấn đề như một RL thời gian liên tục được chuẩn hóa entropy và chỉ ra rằng chính sách xác suất tối ưu có phân phối Gauss với ma trận hiệp phương sai đã biết. Dựa trên kết quả này, chúng tôi tham số hóa giá trị trung bình của chính sách Gauss và phát triển một thuật toán học q loại actor-critic (nhỏ) để giải quyết vấn đề RL. Một yếu tố quan trọng của thiết kế thuật toán là thu được các quan sát nhiễu từ hàm điểm số chưa biết thông qua một ước lượng tốc độ. Công thức này cũng có thể được áp dụng cho việc khớp điểm thuần túy và tinh chỉnh các mô hình đã được đào tạo trước. Về mặt số học, chúng tôi chứng minh tính hiệu quả của phương pháp này bằng cách so sánh hiệu suất của nó với hai phương pháp RL tiên tiến để tinh chỉnh các mô hình được đào tạo trước trên một số tác vụ sinh, bao gồm cả việc tạo ảnh đa chiều. Cuối cùng, chúng tôi thảo luận về việc triển khai ODE dòng xác suất của mô hình khuếch tán và việc mở rộng công thức RL sang mô hình khuếch tán có điều kiện.