DiffCLIP은 차별적 어텐션 메커니즘을 CLIP 아키텍처에 확장한 새로운 비전-언어 모델입니다. 대규모 언어 모델을 위해 개발된 차별적 어텐션은 관련 맥락을 증폭하고 노이즈 정보를 제거하는 역할을 합니다. 본 연구는 이 메커니즘을 CLIP의 이중 인코더(이미지 및 텍스트) 프레임워크에 통합합니다. 매개변수를 최소한으로 추가하면서 제로샷 분류, 검색, 강건성 벤치마크에서 기준 CLIP 모델보다 우수한 성능을 달성합니다. 특히, 이러한 성능 향상은 무시할 만한 계산 오버헤드로 이루어져 효율성을 희생하지 않고 다중 모드 표현을 크게 향상시킬 수 있음을 보여줍니다. 코드는 https://github.com/hammoudhasan/DiffCLIP 에서 확인할 수 있습니다.