Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

TNG-CLIP:Training-Time Negation Data Generation for Negation Awareness of CLIP

Created by
  • Haebom

저자

Yuliang Cai, Jesse Thomason, Mohammad Rostami

개요

CLIP과 같은 비전-언어 모델(VLMs)은 다양한 하위 작업에서 강력한 성능을 보여주지만, 개념의 부재 또는 배제를 인식하는 부정 이해에는 여전히 한계가 있습니다. 기존 방법들은 대규모 언어 모델(LLM)을 사용하여 부정을 포함하는 이미지 캡션의 대규모 데이터를 생성하여 CLIP을 추가로 미세 조정하는 방식으로 이 문제를 해결하지만, 시간과 컴퓨팅 자원이 많이 소모되고 평가는 일반적으로 이미지-텍스트 매칭 작업으로 제한됩니다. 본 연구는 (1) 학습 단계에서 부정 캡션을 생성하는 학습 시간 부정 데이터 생성 파이프라인을 도입하여 추가 학습 시간을 2.5%만 증가시키고, (2) 부정을 포함하는 프롬프트에 대한 텍스트-이미지 생성 모델을 평가하기 위한 최초의 벤치마크인 Neg-TtoI를 제안하여 모델의 의미론적으로 정확한 이미지 생성 능력을 평가합니다. 제안된 방법인 TNG-CLIP은 이미지-텍스트 매칭, 텍스트-이미지 검색 및 이미지 생성의 다양한 부정 벤치마크에서 최첨단 성능을 달성합니다.

시사점, 한계점

시사점:
학습 시간 부정 데이터 생성 파이프라인을 통해 기존 방법보다 효율적으로 CLIP의 부정 이해 능력을 향상시킬 수 있음을 보여줌.
부정을 포함하는 프롬프트에 대한 텍스트-이미지 생성 모델 평가를 위한 최초의 벤치마크인 Neg-TtoI를 제시함.
TNG-CLIP이 다양한 부정 벤치마크에서 최첨단 성능을 달성함.
한계점:
Neg-TtoI 벤치마크가 최초 제시된 것이므로, 향후 추가적인 연구 및 벤치마크 확장이 필요할 수 있음.
제안된 방법의 효율성은 특정 모델(CLIP)과 데이터 생성 방식에 의존적일 수 있음. 다른 VLMs이나 데이터 생성 방법에 대한 추가 연구가 필요할 수 있음.
평가는 주로 이미지-텍스트 매칭, 텍스트-이미지 검색, 이미지 생성 등 특정 작업에 국한됨. 더 넓은 범위의 작업에 대한 평가가 필요할 수 있음.
👍