SPIE là một phương pháp luận hậu huấn luyện mới về mặt ngữ nghĩa và cấu trúc cho các mô hình khuếch tán chỉnh sửa hình ảnh dựa trên hướng dẫn. Để giải quyết những thách thức chính về việc căn chỉnh với lời nhắc của người dùng và tính nhất quán với hình ảnh đầu vào, chúng tôi trình bày một khuôn khổ học tăng cường trực tuyến giúp căn chỉnh các mô hình khuếch tán theo sở thích của con người mà không cần bộ dữ liệu lớn hoặc chú thích mở rộng của con người. Nó tận dụng lời nhắc trực quan để kiểm soát việc chỉnh sửa trực quan chi tiết, thực hiện các sửa đổi chính xác và nhất quán về mặt cấu trúc ngay cả trong các cảnh phức tạp trong khi vẫn duy trì độ trung thực ở các khu vực không liên quan đến hướng dẫn, cải thiện đáng kể sự căn chỉnh với hướng dẫn và tính chân thực. Việc huấn luyện chỉ yêu cầu năm hình ảnh tham chiếu mô tả các khái niệm cụ thể và thậm chí sau 10 vòng huấn luyện, nó có thể thực hiện chỉnh sửa phức tạp trong các cảnh phức tạp. Nó cũng chứng minh các ứng dụng tiềm năng trong robot, nâng cao tính chân thực trực quan của môi trường mô phỏng và nâng cao tiện ích của chúng như một đại diện cho môi trường thế giới thực.