본 논문은 CLIP과 같은 Vision-Language Model(VLM)을 이용하여 AI 생성 이미지의 진위 여부를 검증하는 방법을 연구합니다. 기존 VLM의 사전 학습 과정에서 AI 생성 이미지에 대한 레이블이 부족했기에, AI 생성 이미지 분류 능력은 충분히 탐구되지 않았습니다. 본 연구는 CLIP 임베딩이 AI 생성 여부를 나타내는 정보를 내재적으로 포함하는지 조사합니다. 고정된 CLIP 모델을 사용하여 시각적 임베딩을 추출하고, 경량 네트워크에 임베딩을 입력하여 최종 분류기만 미세 조정하는 파이프라인을 제안합니다. CIFAKE 벤치마크를 사용한 실험 결과, 언어 추론 없이 95%의 정확도를 달성했습니다. 20%의 데이터를 사용한 몇 샷 적응을 통해 85%의 성능을 달성했습니다. Gemini-2.0과 같은 폐쇄형 기준 모델은 최고의 제로샷 정확도를 보였지만 특정 스타일에서는 실패했습니다. 특히 광각 사진 및 유화와 같은 특정 이미지 유형은 분류에 상당한 어려움을 제시합니다. 이는 특정 유형의 AI 생성 이미지 분류에 있어 이전에 알려지지 않았던 어려움을 보여주며, 추가 연구가 필요한 새로운 질문을 제기합니다.