Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

ĐàO tạo - Chỉnh sửa màu hướng dẫn bằng văn bản miễn phí với Multimodal Diffusion Transformer

Created by
  • Haebom

Tác giả

Zixin Yin, Xili Dai, Ling-Hao Chen, Deyu Chu, Jianan Wang, Duomin Wang, Gang Yu, Lionel M. Ni, Lei Zhang, Heung-Yeung Shum

Phác thảo

Bài báo này trình bày ColorCtrl, một phương pháp mới để chỉnh sửa màu sắc dựa trên văn bản cho hình ảnh và video. Để giải quyết những thách thức của các phương pháp không học tập hiện có, vốn gặp khó khăn trong việc kiểm soát màu sắc chính xác và gây ra sự không nhất quán về mặt hình ảnh, ColorCtrl tận dụng cơ chế chú ý của Bộ chuyển đổi khuếch tán đa phương thức (MM-DiT). Bằng cách thao tác các bản đồ chú ý và mã thông báo giá trị, ColorCtrl tách biệt cấu trúc và màu sắc, cho phép chỉnh sửa màu sắc chính xác và nhất quán cũng như kiểm soát cường độ thuộc tính ở cấp độ từ. Phương pháp này chỉ sửa đổi các vùng được chỉ định bởi lời nhắc, giữ nguyên các vùng không liên quan và vượt trội hơn các phương pháp và mô hình thương mại hiện có (FLUX.1 Kontext Max, GPT-4o Image Generation) trên các tập dữ liệu SD3 và FLUX.1-dev. Phương pháp này cũng có thể áp dụng cho các mô hình video như CogVideoX, đặc biệt là cải thiện tính nhất quán về mặt thời gian và độ ổn định khi chỉnh sửa. Phương pháp này cũng có thể khái quát hóa thành các mô hình chỉnh sửa khuếch tán dựa trên lệnh như Step1X-Edit và FLUX.1 Kontext dev.

Takeaways, Limitations

Takeaways:
Tận dụng cơ chế chú ý của bộ biến đổi khuếch tán đa chế độ để cho phép chỉnh sửa màu dựa trên văn bản một cách chính xác và nhất quán.
Cung cấp khả năng kiểm soát độ mạnh của thuộc tính ở cấp độ từ.
Chỉ sửa đổi khu vực được chỉ định trong lời nhắc để giảm thiểu tác động của các khu vực không liên quan.
Nó có thể áp dụng chung cho hình ảnh, video và nhiều mô hình khuếch tán khác nhau.
Nó cho thấy hiệu suất vượt trội hơn so với các phương pháp không cần học và các mô hình thương mại hiện có.
Cải thiện tính nhất quán về mặt thời gian và độ ổn định khi chỉnh sửa video.
Limitations:
Bài báo không đề cập cụ thể đến Limitations. Cần có thêm các thí nghiệm hoặc phân tích để khám phá những tác động thực tế tiềm ẩn (ví dụ: suy giảm hiệu suất, chi phí tính toán, sử dụng bộ nhớ, v.v.) đối với các loại hình ảnh/video cụ thể.
👍