생성 모델의 발전에 따라 악의적인 사용을 막기 위해 생성된 가짜 이미지를 탐지하는 것이 중요해졌습니다. 기존 방법은 단순한 이진 이미지 분류 문제로 접근했지만, 특정 이미지 패턴에 과적합되고 보이지 않는 모델에 일반화되지 않는 한계가 있었습니다. 본 논문에서는 다중 모드 관점에서 이 문제를 해결하고자 하였고, 가짜 이미지가 실제 이미지에 비해 해당 캡션과 제대로 정렬되지 않는다는 점을 발견했습니다. 이를 바탕으로, 이미지-텍스트 정렬 불일치를 차별적인 단서로 활용하는 간단하면서 효과적인 탐지기 ITEM을 제안합니다. 사전 훈련된 CLIP 공간에서 이미지와 캡션의 정렬 불일치를 측정한 다음, MLP 헤드를 조정하여 탐지 작업을 수행합니다. 또한, 전체 이미지와 캡션에 설명된 각 의미 객체에 먼저 초점을 맞추는 계층적 불일치 방식을 제안하여 글로벌 및 세분화된 로컬 의미 불일치를 단서로 활용합니다. 광범위한 실험을 통해, ITEM은 다양한 최신 생성 모델에서 뛰어난 일반화 및 견고성을 보이며 다른 최첨단 경쟁자보다 우수한 성능을 입증했습니다.