본 논문은 기존 Contrastive Language-Image Pre-training (CLIP) 모델의 한계인 세밀한 이해 부족을 해결하기 위해 Fine-Grained CLIP (FG-CLIP)을 제안합니다. FG-CLIP은 세 가지 핵심 혁신을 통해 세밀한 이해를 향상시킵니다. 첫째, 대규모 다중 모달 모델을 활용하여 16억 개의 장문 캡션-이미지 쌍을 생성하여 전역 수준의 의미적 세부 정보를 포착합니다. 둘째, 1200만 개의 이미지와 4000만 개의 영역별 바운딩 박스를 포함하는 고품질 데이터셋을 구성하여 정확하고 풍부한 컨텍스트를 가진 표현을 보장합니다. 셋째, 1000만 개의 어려운 세밀한 음성 샘플을 통합하여 미묘한 의미 차이를 구별하는 모델의 능력을 향상시킵니다. FineHARD라는 포괄적인 데이터셋을 구축하고, 이 데이터에 맞는 훈련 방법을 설계했습니다. 다양한 downstream task(세밀한 이해, 오픈 어휘 객체 탐지, 이미지-텍스트 검색, 일반 다중 모달 벤치마크)에서 FG-CLIP이 기존 CLIP 및 다른 최첨단 방법을 능가함을 실험을 통해 보여줍니다. 데이터, 코드 및 모델은 https://github.com/360CVGroup/FG-CLIP 에서 이용 가능합니다.