Bài báo này trình bày ColorCtrl, một phương pháp mới để chỉnh sửa màu sắc dựa trên văn bản cho hình ảnh và video. Để giải quyết những thách thức của các phương pháp không học tập hiện có, vốn gặp khó khăn trong việc kiểm soát màu sắc chính xác và gây ra sự không nhất quán về mặt hình ảnh, ColorCtrl tận dụng cơ chế chú ý của Bộ chuyển đổi khuếch tán đa phương thức (MM-DiT). Bằng cách thao tác các bản đồ chú ý và mã thông báo giá trị, ColorCtrl tách biệt cấu trúc và màu sắc, cho phép chỉnh sửa màu sắc chính xác và nhất quán cũng như kiểm soát cường độ thuộc tính ở cấp độ từ. Phương pháp này chỉ sửa đổi các vùng được chỉ định bởi lời nhắc, giữ nguyên các vùng không liên quan và vượt trội hơn các phương pháp và mô hình thương mại hiện có (FLUX.1 Kontext Max, GPT-4o Image Generation) trên các tập dữ liệu SD3 và FLUX.1-dev. Phương pháp này cũng có thể áp dụng cho các mô hình video như CogVideoX, đặc biệt là cải thiện tính nhất quán về mặt thời gian và độ ổn định khi chỉnh sửa. Phương pháp này cũng có thể khái quát hóa thành các mô hình chỉnh sửa khuếch tán dựa trên lệnh như Step1X-Edit và FLUX.1 Kontext dev.