Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Explainable Detection of AI-Generated Images with Artifact Localization Using Faster-Than-Lies and Vision-Language Models for Edge Devices

Created by
  • Haebom

저자

Aryan Mathur, Asaduddin Ahmed, Pushti Amit Vasoya, Simeon Kandan Sonar, Yasir Z, Madesh Kuppusamy

개요

AI 생성 이미지의 현실성이 높아짐에 따라 시각적 진위 여부를 검증하는 데 어려움이 발생한다. 본 논문에서는 경량 컨볼루션 분류기("Faster-Than-Lies")와 비전-언어 모델(Qwen2-VL-7B)을 결합하여 32x32 이미지 내의 아티팩트를 분류, 지역화 및 설명하는 설명 가능한 이미지 진위 감지 시스템을 제시한다. 제안하는 모델은 적대적 교란으로 확장된 CiFAKE 데이터 세트에서 96.5%의 정확도를 달성하며, 8코어 CPU에서 175ms의 추론 시간을 유지하여 로컬 또는 엣지 장치에 배포할 수 있다. 자동 인코더 기반 재구성 오류 맵을 사용하여 아티팩트 지역화 히트맵을 생성하여 인간과 VLM 모두의 해석 가능성을 향상시킨다. 또한 70가지 시각적 아티팩트 유형을 8개의 의미 그룹으로 분류하고 감지된 각 이상에 대한 설명 가능한 텍스트 생성을 시연한다. 본 연구는 저해상도 이미지에서 해석 가능한 진위 감지를 위해 시각적 추론과 언어적 추론을 결합하는 것이 가능하다는 점을 강조하며, 법의학, 산업 검사 및 소셜 미디어 조정과 같은 잠재적인 교차 도메인 응용 프로그램을 제시한다.

시사점, 한계점

경량 모델과 VLM의 결합을 통한 해석 가능한 이미지 진위 감지 시스템 개발
확장된 데이터셋(CiFAKE)에서 높은 정확도 (96.5%) 달성
저해상도(32x32) 이미지에서도 효과적인 아티팩트 감지 및 설명
추론 시간 175ms로 엣지 디바이스 배포 가능
아티팩트 지역화 및 설명 텍스트 생성으로 해석 가능성 향상
법의학, 산업 검사, 소셜 미디어 조정 등 다양한 분야에 적용 가능성 제시
해당 논문에서 제시하는 방법론은 32x32 해상도 이미지를 대상으로 함
모델 성능은 데이터셋 및 사용된 VLM에 따라 달라질 수 있음
👍