En este artículo, proponemos Sync, un marco de limpieza de conjuntos de datos sintéticos para el subtitulado de imágenes de cero disparos (ZIC). Los ZIC existentes utilizan conjuntos de datos sintéticos generados por modelos de conversión de texto a imagen (T2I) para reducir el costoso trabajo de anotación manual, pero las imágenes generadas por estos modelos suelen presentar inconsistencias semánticas con sus subtítulos. Las técnicas de limpieza de datos actuales se centran en la eliminación de textos con ruido de los datos rastreados en la web, lo cual no es adecuado para las características de los datos sintéticos (subtítulos bien formados, imágenes imprecisas). Sync reasigna los subtítulos a las imágenes que presentan la mayor coherencia semántica con los subtítulos del conjunto de imágenes existente. Primero, recupera múltiples imágenes candidatas para cada subtítulo y, a continuación, selecciona la imagen óptima comprobando si el subtítulo original puede recuperarse mediante la recuperación de imagen a texto, utilizando puntuaciones de alineación basadas en la consistencia circular. Los resultados experimentales muestran que Sync supera varios modelos y puntos de referencia ZIC (MS-COCO, Flickr30k, NoCaps) y logra resultados de última generación.