Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

CLIP Embeddings for AI-Generated Image Detection: A Few-Shot Study with Lightweight Classifier

Created by
  • Haebom

저자

Ziyang Ou

개요

본 논문은 CLIP과 같은 Vision-Language Model(VLM)을 이용하여 AI 생성 이미지의 진위 여부를 검증하는 방법을 연구합니다. 기존 VLM의 사전 학습 과정에서 AI 생성 이미지에 대한 레이블이 부족했기에, AI 생성 이미지 분류 능력은 충분히 탐구되지 않았습니다. 본 연구는 CLIP 임베딩이 AI 생성 여부를 나타내는 정보를 내재적으로 포함하는지 조사합니다. 고정된 CLIP 모델을 사용하여 시각적 임베딩을 추출하고, 경량 네트워크에 임베딩을 입력하여 최종 분류기만 미세 조정하는 파이프라인을 제안합니다. CIFAKE 벤치마크를 사용한 실험 결과, 언어 추론 없이 95%의 정확도를 달성했습니다. 20%의 데이터를 사용한 몇 샷 적응을 통해 85%의 성능을 달성했습니다. Gemini-2.0과 같은 폐쇄형 기준 모델은 최고의 제로샷 정확도를 보였지만 특정 스타일에서는 실패했습니다. 특히 광각 사진 및 유화와 같은 특정 이미지 유형은 분류에 상당한 어려움을 제시합니다. 이는 특정 유형의 AI 생성 이미지 분류에 있어 이전에 알려지지 않았던 어려움을 보여주며, 추가 연구가 필요한 새로운 질문을 제기합니다.

시사점, 한계점

시사점:
CLIP 임베딩을 활용하여 AI 생성 이미지를 효과적으로 분류할 수 있음을 보여줌.
언어 추론 없이 높은 정확도 달성 가능성 제시.
소량의 데이터로도 괜찮은 성능을 보이는 few-shot 학습 가능성 확인.
한계점:
광각 사진 및 유화와 같은 특정 이미지 유형에 대한 분류 성능 저하.
특정 스타일의 AI 생성 이미지에 대한 분류 어려움 존재.
폐쇄형 모델(Gemini-2.0)과의 성능 비교 결과 제시 필요.
특정 이미지 유형에 대한 분류 성능 저하 원인에 대한 추가 연구 필요.
👍