본 논문은 제로샷 이미지 캡셔닝(ZIC)을 위한 합성 데이터셋 정제 프레임워크인 SynC를 제안합니다. 기존의 ZIC는 값비싼 수동 주석 작업을 줄이기 위해 텍스트-이미지(T2I) 모델로 생성된 합성 데이터셋을 활용하지만, T2I 모델이 생성하는 이미지는 종종 캡션과 의미적 불일치를 보입니다. 기존 데이터 정제 기법은 웹 크롤링 데이터의 잡음이 많은 텍스트 제거에 초점을 맞춰 합성 데이터의 특징(잘 형성된 캡션, 부정확한 이미지)에는 적합하지 않습니다. SynC는 기존 이미지 풀에서 캡션과 의미적으로 가장 일치하는 이미지에 캡션을 재할당하는 방식을 사용합니다. 먼저 각 캡션에 대해 여러 후보 이미지를 검색하고, 순환 일관성에 기반한 정렬 점수를 사용하여 이미지-텍스트 검색을 통해 원래 캡션을 검색할 수 있는지 확인하여 최적의 이미지를 선택합니다. 실험 결과, SynC는 다양한 ZIC 모델과 벤치마크(MS-COCO, Flickr30k, NoCaps)에서 성능을 향상시키고 최첨단 결과를 달성했습니다.