본 논문은 텍스트, 이미지, 외부 지식의 복합적인 상호작용으로 인해 어려움을 겪고 있는 가짜 뉴스 탐지 문제를 해결하기 위해 다중 모달 가짜 뉴스 탐지 프레임워크를 제안합니다. 기존 방법들이 전역 이미지 맥락만 고려하고 지역 객체 수준의 세부 정보와 외부 지식을 무시하는 한계를 극복하기 위해, 하향식 어텐션을 활용하여 세밀한 객체 정보를 포착하고, CLIP을 사용하여 전역 이미지 의미를 파악하며, RoBERTa를 사용하여 맥락을 고려한 텍스트 인코딩을 수행합니다. 또한 지식 그래프에서 관련 엔티티를 검색하고 적응적으로 선택하여 지식 활용을 향상시킵니다. 다중 모달 특징을 융합하여 Transformer 기반 분류기를 통해 뉴스의 진위 여부를 예측합니다. 실험 결과, 제안된 모델이 최신 접근 방식보다 성능이 우수함을 보여주며, 이웃 선택 메커니즘과 다중 모달 융합의 효과를 입증합니다. 명시적인 엔티티 수준 선택과 NLI(Natural Language Inference) 기반 필터링을 통합하여 가짜 뉴스 탐지를 특징 융합에서 의미 기반 검증으로 전환하는 새로운 패러다임을 제시합니다. 소스 코드는 공개적으로 제공됩니다.