AI 생성 이미지의 현실성이 높아짐에 따라 시각적 진위 여부를 검증하는 데 어려움이 발생한다. 본 논문에서는 경량 컨볼루션 분류기("Faster-Than-Lies")와 비전-언어 모델(Qwen2-VL-7B)을 결합하여 32x32 이미지 내의 아티팩트를 분류, 지역화 및 설명하는 설명 가능한 이미지 진위 감지 시스템을 제시한다. 제안하는 모델은 적대적 교란으로 확장된 CiFAKE 데이터 세트에서 96.5%의 정확도를 달성하며, 8코어 CPU에서 175ms의 추론 시간을 유지하여 로컬 또는 엣지 장치에 배포할 수 있다. 자동 인코더 기반 재구성 오류 맵을 사용하여 아티팩트 지역화 히트맵을 생성하여 인간과 VLM 모두의 해석 가능성을 향상시킨다. 또한 70가지 시각적 아티팩트 유형을 8개의 의미 그룹으로 분류하고 감지된 각 이상에 대한 설명 가능한 텍스트 생성을 시연한다. 본 연구는 저해상도 이미지에서 해석 가능한 진위 감지를 위해 시각적 추론과 언어적 추론을 결합하는 것이 가능하다는 점을 강조하며, 법의학, 산업 검사 및 소셜 미디어 조정과 같은 잠재적인 교차 도메인 응용 프로그램을 제시한다.