Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

ĐàO tạo - Chỉnh sửa màu hướng dẫn bằng văn bản miễn phí với Multimodal Diffusion Transformer

Created by
  • Haebom

Tác giả

Zixin Yin, Xili Dai, Ling-Hao Chen, Deyu Chu, Jianan Wang, Duomin Wang, Gang Yu, Lionel M. Ni, Heung-Yeung Shum

Phác thảo

Bài báo này trình bày ColorCtrl, một phương pháp mới để chỉnh sửa màu chính xác và nhất quán mà không cần đào tạo, để giải quyết các vấn đề chỉnh sửa màu dựa trên văn bản trong hình ảnh và video. ColorCtrl tận dụng cơ chế chú ý của bộ biến đổi khuếch tán đa phương thức (MM-DiT) để tách cấu trúc và màu sắc, đồng thời thao tác các bản đồ chú ý và mã thông báo giá trị để cho phép chỉnh sửa màu chính xác và nhất quán và kiểm soát cường độ thuộc tính ở cấp độ từ. ColorCtrl chỉ sửa đổi các vùng được chỉ định bởi lời nhắc, giữ nguyên các vùng không liên quan. Phương pháp này vượt trội hơn các phương pháp không cần đào tạo hiện có trên SD3 và FLUX.1-dev. Đặc biệt, phương pháp này vượt trội hơn các mô hình thương mại như FLUX.1 Kontext Max và GPT-4o Image Generation về tính nhất quán, và phương pháp này mở rộng sang các mô hình video như CogVideoX để cải thiện tính nhất quán theo thời gian và tính ổn định khi chỉnh sửa. Phương pháp này cũng có thể khái quát hóa thành các mô hình khuếch tán chỉnh sửa dựa trên hướng dẫn như Step1X-Edit và FLUX.1 Kontext dev, chứng minh tính linh hoạt của nó.

Takeaways, Limitations

Takeaways:
Cho phép chỉnh sửa màu sắc hình ảnh và video dựa trên văn bản một cách chính xác và nhất quán mà không cần đào tạo.
ĐạT được chất lượng chỉnh sửa và tính nhất quán vượt trội so với các phương pháp không cần đào tạo và các mô hình thương mại hiện có.
Kiểm soát độ mạnh của thuộc tính ở cấp độ từ.
Chỉ sửa đổi khu vực được chỉ định và giữ nguyên các khu vực không liên quan.
ÁP dụng cho nhiều mô hình chỉnh sửa hình ảnh và video.
Cải thiện tính nhất quán về mặt thời gian và độ ổn định khi chỉnh sửa video.
Limitations:
Bài báo không đề cập rõ ràng đến Limitations cụ thể. Có thể cần nghiên cứu thêm để cải thiện hiệu suất và khắc phục những hạn chế.
👍