Trong bài báo này, chúng tôi đề xuất SynC, một khuôn khổ làm sạch tập dữ liệu tổng hợp cho chú thích ảnh zero-shot (ZIC). Các ZIC hiện có sử dụng các tập dữ liệu tổng hợp được tạo bởi các mô hình chuyển đổi văn bản sang hình ảnh (T2I) để giảm bớt công việc chú thích thủ công tốn kém, nhưng hình ảnh được tạo bởi các mô hình T2I thường có sự không nhất quán về mặt ngữ nghĩa với chú thích của chúng. Các kỹ thuật làm sạch dữ liệu hiện có tập trung vào việc loại bỏ các văn bản nhiễu khỏi dữ liệu thu thập trên web, điều này không phù hợp với các đặc điểm của dữ liệu tổng hợp (chú thích đúng định dạng, hình ảnh không chính xác). SynC gán lại chú thích cho các hình ảnh nhất quán nhất về mặt ngữ nghĩa với các chú thích từ nhóm hình ảnh hiện có. Đầu tiên, nó truy xuất nhiều hình ảnh ứng viên cho mỗi chú thích, sau đó chọn hình ảnh tối ưu bằng cách kiểm tra xem chú thích gốc có thể được truy xuất thông qua truy xuất hình ảnh sang văn bản hay không bằng cách sử dụng điểm căn chỉnh dựa trên tính nhất quán vòng tròn. Kết quả thử nghiệm cho thấy SynC vượt trội hơn nhiều mô hình và chuẩn ZIC khác nhau (MS-COCO, Flickr30k, NoCaps) và đạt được kết quả tiên tiến nhất.