본 논문은 맥락을 벗어난 다중 모달(텍스트와 이미지) 허위 정보를 탐지하는 새로운 그래프 기반 방법을 제안합니다. 기존의 대규모 언어 모델(LLM)이나 다중 모달 언어 모델(LVLMs)은 맥락 정보를 고려하지 않고 허위 정보를 판별하기 때문에 한계가 있습니다. 본 연구에서는 온라인 텍스트 증거로부터 추출한 증거 그래프와 주장 캡션으로부터 생성한 주장 그래프를 구성하여 이미지와 캡션 간의 일관성을 평가합니다. 그래프 신경망(GNN)을 이용하여 두 그래프를 인코딩하고 비교하여 이미지-캡션 쌍의 진실성을 평가합니다. 제안된 방법은 평가 데이터셋에서 93.05%의 탐지 정확도를 달성하여, 기존 LLM 기반 방법보다 2.82% 높은 성능을 보였습니다. 이는 특정 작업에 맞는 소규모 모델이 효과적일 수 있음을 시사합니다.