본 논문은 진화된 AI 모델에 의해 생성된 합성 이미지의 증가로 인해 조작된 시각적 콘텐츠를 식별하고 이해하는 데 어려움이 발생하는 문제를 해결하기 위해, 기존의 이진 분류 모델 방식 대신 시각적 질문응답(VQA) 태스크로 딥페이크 탐지를 재구성한 새로운 프레임워크인 TruthLens를 제시합니다. TruthLens는 최첨단 대규모 시각-언어 모델(LVLMs)을 사용하여 시각적 인공물을 관찰하고 설명하고, GPT-4와 같은 대규모 언어 모델(LLMs)의 추론 능력을 활용하여 증거를 분석하고 종합하여 정보에 입각한 결정을 내립니다. 다중 모드 접근 방식을 통해 시각적 및 의미적 추론을 통합하여 이미지를 진짜 또는 가짜로 분류할 뿐만 아니라 결정에 대한 해석 가능한 설명도 제공합니다. 광범위한 평가를 통해 TruthLens가 기존 방법보다 우수한 성능을 달성하고 설명 가능성을 강조하는 것을 보여줍니다.