본 논문은 기존 Contrastive Language-Image Pre-training (CLIP) 모델의 세밀한 이해 능력 부족 문제를 해결하기 위해 Fine-Grained CLIP (FG-CLIP)을 제안합니다. FG-CLIP은 16억 개의 장문 캡션-이미지 쌍을 활용하고, 1200만 개의 이미지와 4000만 개의 영역 특정 바운딩 박스를 포함하는 고품질 데이터셋을 구축하며, 1000만 개의 어려운 세밀한 음성 샘플을 추가하여 세밀한 이해 능력을 향상시킵니다. FgGRN이라는 포괄적인 데이터셋을 구축하고, 이에 맞는 훈련 방법을 설계하여 다양한 하위 작업(세밀한 이해, 개방형 어휘 객체 탐지, 이미지-텍스트 검색, 일반적인 다중 모드 벤치마크 등)에서 기존 CLIP 및 다른 최첨단 방법들을 능가하는 성능을 보입니다.