본 논문은 AI 생성 이미지의 제로샷 탐지를 위해 사전 훈련된 비전-언어 모델(VLMs)을 활용하는 연구를 제시합니다. 기존의 지도 학습 기반 탐지 방식은 대규모 데이터셋에 의존하고 다양한 생성기들에 대한 일반화가 어렵다는 한계를 지닙니다. 연구진은 "Let's examine the style and the synthesis artifacts"라는 구절을 프롬프트 앞에 추가하는 zero-shot-s$^2$ 기법을 제안하여, 미세 조정 없이도 성능을 크게 향상시켰습니다. 다양한 오픈소스 모델과 데이터셋에 걸쳐 Macro F1 점수를 8%-29% 향상시키는 결과를 보였으며, 모델 규모에도 강건함을 확인했습니다. 또한, 다양한 추론 경로의 답변을 집계하는 자기 일관성(self-consistency) 기법도 효과적임을 보였고, zero-shot-s$^2$가 대부분의 경우 체인 오브 쏘트(chain-of-thought)보다 더 나은 성능을 보였습니다. 이는 과제 지향적인 프롬프트가 VLMs의 잠재 능력을 향상시키고, 지도 학습 방식에 대한 간단하고 일반화 가능하며 설명 가능한 대안을 제공함을 시사합니다.