Bài báo này trình bày ColorCtrl, một phương pháp mới để chỉnh sửa màu chính xác và nhất quán mà không cần đào tạo, để giải quyết các vấn đề chỉnh sửa màu dựa trên văn bản trong hình ảnh và video. ColorCtrl tận dụng cơ chế chú ý của bộ biến đổi khuếch tán đa phương thức (MM-DiT) để tách cấu trúc và màu sắc, đồng thời thao tác các bản đồ chú ý và mã thông báo giá trị để cho phép chỉnh sửa màu chính xác và nhất quán và kiểm soát cường độ thuộc tính ở cấp độ từ. ColorCtrl chỉ sửa đổi các vùng được chỉ định bởi lời nhắc, giữ nguyên các vùng không liên quan. Phương pháp này vượt trội hơn các phương pháp không cần đào tạo hiện có trên SD3 và FLUX.1-dev. Đặc biệt, phương pháp này vượt trội hơn các mô hình thương mại như FLUX.1 Kontext Max và GPT-4o Image Generation về tính nhất quán, và phương pháp này mở rộng sang các mô hình video như CogVideoX để cải thiện tính nhất quán theo thời gian và tính ổn định khi chỉnh sửa. Phương pháp này cũng có thể khái quát hóa thành các mô hình khuếch tán chỉnh sửa dựa trên hướng dẫn như Step1X-Edit và FLUX.1 Kontext dev, chứng minh tính linh hoạt của nó.