Bài báo này đề xuất AnomalyControl, một khuôn khổ tổng hợp dị thường mới, nhằm khắc phục những hạn chế của các phương pháp tổng hợp dị thường từ văn bản sang hình ảnh hiện có. Các phương pháp hiện có chỉ dựa vào thông tin văn bản hoặc các đặc điểm trực quan được căn chỉnh thô, không thể nắm bắt đầy đủ các đặc điểm phức tạp của dị thường. AnomalyControl sử dụng các đặc điểm ngữ nghĩa đa phương thức làm tín hiệu hướng dẫn, mã hóa các dị thường tổng quát từ các lời nhắc tham chiếu từ văn bản sang hình ảnh. Cụ thể, nó sử dụng các cặp lời nhắc không khớp (lời nhắc tham chiếu từ văn bản sang hình ảnh và lời nhắc văn bản đích) và tận dụng mô-đun mô hình ngữ nghĩa đa phương thức (CSM) và cơ chế chú ý tăng cường dị thường sang ngữ nghĩa (ASEA) để tập trung vào các mẫu hình ảnh tinh tế của dị thường, tăng cường tính chân thực và tính liên quan theo ngữ cảnh của các đặc điểm dị thường được tạo ra. Cuối cùng, bộ điều hợp bản đồ ngữ nghĩa (SGA) sử dụng các đặc điểm ngữ nghĩa đa phương thức làm thông tin trước để mã hóa các tín hiệu hướng dẫn hiệu quả cho một quá trình tổng hợp phù hợp và có thể kiểm soát được. Kết quả thử nghiệm chứng minh rằng AnomalyControl vượt trội hơn các phương pháp hiện có và đạt được kết quả tiên tiến nhất trong tổng hợp dị thường và các nhiệm vụ tiếp theo.