본 논문은 비전-언어 모델 사전 학습에서 고품질 이미지-텍스트 쌍에 대한 의존성을 낮추기 위한 확장 가능한 캡션 생성 기술을 연구합니다. 대규모 저-환각(low-hallucination) 합성 캡션을 생성하는 새로운 파이프라인을 제시하며, 이를 사전 학습에 사용하여 실제 데이터에 필적하는 성능 향상을 달성함을 보여줍니다. 특히, 지속적인 DPO 방법론을 통해 환각률을 48.3%에서 77.9%로 크게 감소시켰으며, 15가지 비전-언어 작업에서 기존 alt-text 기반 모델 대비 최소 6.2%의 성능 향상을 달성했습니다. 또한 20가지 인지 영역에서 최소 7.5%의 성능 향상과 텍스트-이미지 도메인에서 FID 점수 감소(실제 데이터 기준 17.1, MSCOCO 기준 13.3)를 확인했습니다.