CLIP과 같은 비전-언어 모델(VLMs)은 다양한 하위 작업에서 강력한 성능을 보여주지만, 개념의 부재 또는 배제를 인식하는 부정 이해에는 여전히 한계가 있습니다. 기존 방법들은 대규모 언어 모델(LLM)을 사용하여 부정을 포함하는 이미지 캡션의 대규모 데이터를 생성하여 CLIP을 추가로 미세 조정하는 방식으로 이 문제를 해결하지만, 시간과 컴퓨팅 자원이 많이 소모되고 평가는 일반적으로 이미지-텍스트 매칭 작업으로 제한됩니다. 본 연구는 (1) 학습 단계에서 부정 캡션을 생성하는 학습 시간 부정 데이터 생성 파이프라인을 도입하여 추가 학습 시간을 2.5%만 증가시키고, (2) 부정을 포함하는 프롬프트에 대한 텍스트-이미지 생성 모델을 평가하기 위한 최초의 벤치마크인 Neg-TtoI를 제안하여 모델의 의미론적으로 정확한 이미지 생성 능력을 평가합니다. 제안된 방법인 TNG-CLIP은 이미지-텍스트 매칭, 텍스트-이미지 검색 및 이미지 생성의 다양한 부정 벤치마크에서 최첨단 성능을 달성합니다.