Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Inversion-DPO: Đào tạo sau chính xác và hiệu quả cho các mô hình khuếch tán

Created by
  • Haebom

Tác giả

Zejian Li, Yize Li, Chenye Meng, Zhongni Liu, Yang Ling, Shengyuan Zhang, Quảng Dương, Changyuan Yang, Zhiyuan Yang, Lingyun Sun

Phác thảo

Trong bài báo này, chúng tôi đề xuất Inversion-DPO, một khuôn khổ mới để căn chỉnh các mô hình khuếch tán (DM). Các phương pháp hiện có gặp phải những vấn đề như chi phí tính toán cao cho việc học mô hình phần thưởng, độ chính xác và hiệu quả huấn luyện mô hình thấp. Inversion-DPO bỏ qua việc học mô hình phần thưởng bằng cách tái cấu trúc Tối ưu hóa Ưu tiên Trực tiếp (DPO) bằng cách sử dụng nghịch đảo DDIM. Chúng tôi trình bày một mô hình huấn luyện hậu kỳ mới bằng cách thực hiện lấy mẫu xác suất hậu nghiệm khó trong DPO khuếch tán thông qua nghịch đảo xác định từ các mẫu thắng và thua thành nhiễu. Điều này cải thiện đáng kể độ chính xác và hiệu quả mà không cần mô hình phần thưởng. Chúng tôi áp dụng Inversion-DPO cho các tác vụ tạo văn bản thành hình ảnh và tạo hình ảnh phức tạp, đồng thời chứng minh những cải tiến về hiệu suất so với các phương pháp hiện có, thể hiện khả năng tạo ra hình ảnh chất lượng cao và nhất quán phức tạp. Đối với quá trình tạo hình ảnh phức tạp sau huấn luyện, chúng tôi xây dựng một tập dữ liệu ghép đôi mới chứa 11.140 chú thích cấu trúc phức tạp và điểm số toàn diện. Inversion-DPO trình bày một phương pháp mới để căn chỉnh mô hình khuếch tán hiệu quả và chính xác, đồng thời tăng khả năng ứng dụng của nó cho các tác vụ tạo hình ảnh thực tế phức tạp. Mã có thể được tìm thấy tại https://github.com/MIGHTYEZ/Inversion-DPO .

Takeaways, Limitations

Takeaways:
Chúng tôi trình bày một phương pháp mới để thực hiện căn chỉnh các mô hình khuếch tán một cách hiệu quả mà không cần học mô hình phần thưởng.
ĐạT được độ chính xác và hiệu quả đào tạo được cải thiện so với các phương pháp hiện có.
Cải thiện hiệu suất tạo hình ảnh chất lượng cao cho các tác vụ phức tạp như tạo hình ảnh tổng hợp.
Cung cấp bộ dữ liệu ghép nối mới để tạo hình ảnh tổng hợp.
Limitations:
Cần nghiên cứu thêm về hiệu suất tổng quát của phương pháp đề xuất.
Cần có các nghiên cứu so sánh hiệu suất và khả năng áp dụng cho nhiều nhiệm vụ khác nhau.
Những hạn chế có thể có về quy mô và tính đa dạng của tập dữ liệu được ghép nối.
👍