Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Mô hình khuếch tán dựa trên điểm số hướng đến phần thưởng thông qua q-Learning

Created by
  • Haebom

Tác giả

Xuefeng Gao, Jiale Zha, Xun Yu Chu

Phác thảo

Bài báo này đề xuất một công thức học tăng cường (RL) mới để huấn luyện một mô hình khuếch tán dựa trên điểm số theo thời gian liên tục cho AI tạo sinh. Công thức này tạo ra các mẫu tối đa hóa hàm phần thưởng trong khi vẫn giữ phân phối được tạo gần với phân phối dữ liệu mục tiêu chưa biết. Không giống như các nghiên cứu trước đây, chúng tôi không cố gắng học một hàm điểm số hoặc sử dụng một mô hình được đào tạo trước cho hàm điểm số của một phân phối dữ liệu nhiễu chưa biết. Thay vào đó, chúng tôi xây dựng vấn đề như một RL thời gian liên tục được chuẩn hóa entropy và chỉ ra rằng chính sách xác suất tối ưu có phân phối Gauss với ma trận hiệp phương sai đã biết. Dựa trên kết quả này, chúng tôi tham số hóa giá trị trung bình của chính sách Gauss và phát triển một thuật toán học q loại actor-critic (nhỏ) để giải quyết vấn đề RL. Một yếu tố quan trọng của thiết kế thuật toán là thu được các quan sát nhiễu từ hàm điểm số chưa biết thông qua một ước lượng tốc độ. Công thức này cũng có thể được áp dụng cho việc khớp điểm thuần túy và tinh chỉnh các mô hình đã được đào tạo trước. Về mặt số học, chúng tôi chứng minh tính hiệu quả của phương pháp này bằng cách so sánh hiệu suất của nó với hai phương pháp RL tiên tiến để tinh chỉnh các mô hình được đào tạo trước trên một số tác vụ sinh, bao gồm cả việc tạo ảnh đa chiều. Cuối cùng, chúng tôi thảo luận về việc triển khai ODE dòng xác suất của mô hình khuếch tán và việc mở rộng công thức RL sang mô hình khuếch tán có điều kiện.

Takeaways, Limitations

Takeaways:
Chúng tôi trình bày một công thức RL mới để đào tạo các mô hình khuếch tán dựa trên điểm số theo thời gian liên tục mà không cần các mô hình được đào tạo trước.
Phát triển thuật toán hiệu quả sử dụng đặc tính phân phối Gauss của các chính sách tối ưu.
Học tập hiệu quả thông qua việc thu thập các quan sát nhiễu bằng cách sử dụng ước lượng tỷ lệ.
Nó cũng có thể được áp dụng cho việc so khớp điểm số thuần túy và tinh chỉnh các mô hình được đào tạo trước.
Thể hiện hiệu suất vượt trội so với các phương pháp hiện có trong nhiều tác vụ tạo ảnh khác nhau, bao gồm cả tạo ảnh đa chiều.
Đề Xuất mở rộng cho ODE dòng chảy ngẫu nhiên và mô hình khuếch tán có điều kiện.
Limitations:
Cần có thêm các thí nghiệm và phân tích để xác định hiệu suất tổng quát của phương pháp đề xuất.
Cần nghiên cứu thêm về khả năng mở rộng và chi phí tính toán cho dữ liệu đa chiều.
Hiệu suất có thể bị ảnh hưởng bởi độ chính xác của công cụ ước tính tỷ lệ.
Giới hạn hiệu suất trong những tình huống không có thông tin nào về hàm tính điểm chưa biết.
👍