[공지사항]을 빙자한 안부와 근황 
Show more

Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Mã tiềm ẩn rời rạc thành phần cho các mô hình khuếch tán hiệu quả, độ trung thực cao

Created by
  • Haebom

Tác giả

Samuel Lavoie, Michael Noukhovitch, Aaron Courville

Phác thảo

Bài báo này lập luận rằng sự thành công của các mô hình khuếch tán phần lớn là do điều kiện đầu vào. Theo đó, chúng tôi nghiên cứu các biểu diễn được sử dụng để điều kiện hóa các mô hình khuếch tán, với quan điểm rằng một biểu diễn lý tưởng nên cải thiện độ trung thực của mẫu, dễ tạo và có thể cấu hình để cho phép tạo ra các mẫu ngoài huấn luyện. Chúng tôi giới thiệu các mã tiềm ẩn rời rạc (DLC), được rút ra từ các nhúng phức hợp đơn giản được huấn luyện với các mục tiêu học tự giám sát. Không giống như các nhúng ảnh liên tục tiêu chuẩn, DLC là các chuỗi mã thông báo rời rạc. Chúng dễ tạo và khả năng cấu hình của chúng cho phép lấy mẫu các hình ảnh mới vượt ra ngoài phân phối huấn luyện. Các mô hình khuếch tán được huấn luyện bằng DLC đạt được độ trung thực tạo ra được cải thiện, thiết lập một công nghệ tiên tiến mới trong việc tạo ảnh vô điều kiện trên ImageNet. Chúng tôi cũng chứng minh rằng việc xây dựng DLC cho phép các trình tạo ảnh tạo ra các mẫu ngoài phân phối kết hợp nhất quán ý nghĩa của hình ảnh theo nhiều cách khác nhau. Cuối cùng, chúng tôi chứng minh cách DLC cho phép tạo văn bản thành hình ảnh bằng cách tận dụng các mô hình ngôn ngữ được huấn luyện trước quy mô lớn. Chúng tôi tinh chỉnh hiệu quả các mô hình ngôn ngữ khuếch tán văn bản để tạo ra các DLC tạo ra các mẫu mới bên ngoài phân phối đào tạo của trình tạo hình ảnh.

Takeaways, Limitations

Takeaways:
Bằng cách sử dụng mã tiềm ẩn rời rạc (DLC), chúng tôi cải thiện độ trung thực khi tạo ra các mô hình khuếch tán và đạt được công nghệ tiên tiến mới trên ImageNet.
Chúng tôi chứng minh rằng khả năng kết hợp của DLC cho phép tạo ra những hình ảnh mới vượt ra ngoài phạm vi phân phối đào tạo và sự kết hợp các hình ảnh có ý nghĩa khác nhau.
Kết hợp các mô hình ngôn ngữ được đào tạo trước quy mô lớn với DLC cho phép tạo ra văn bản thành hình ảnh hiệu quả.
Limitations:
Hiệu suất của DLC có thể bị giới hạn ở một tập dữ liệu cụ thể (ImageNet). Cần đánh giá hiệu suất tổng quát trên các tập dữ liệu khác.
Cần nghiên cứu thêm về chi phí tính toán và hiệu quả của quá trình tạo DLC.
Cần phân tích thêm về các giới hạn và ràng buộc đối với khả năng cấu hình của DLC.
👍