CLIP의 세밀한 이해 능력 부족 문제를 해결하기 위해, 16억 개의 장대 길이 캡션-이미지 쌍, 1200만 개 이미지와 4000만 개의 영역 특정 경계 상자, 1000만 개의 어려운 세밀한 부정적 샘플을 활용하여 Fine-Grained CLIP (FG-CLIP)을 제안합니다. FG-CLIP은 대규모 다중 모달 모델을 활용하여 글로벌 수준의 의미적 세부 정보를 포착하고, 고품질 데이터셋을 구축하여 정확하고 문맥이 풍부한 표현을 보장하며, 세밀한 의미 차이를 구분하는 모델의 능력을 향상시킵니다. 다양한 하위 작업(세밀한 이해, 개방형 어휘 객체 탐지, 이미지-텍스트 검색, 일반적인 다중 모달 벤치마크 포함)에서 기존 CLIP 및 다른 최첨단 방법을 능가하는 성능을 보입니다.