본 논문은 멀티모달 가짜 뉴스 탐지에 대한 새로운 접근 방식을 제안한다. 기존 방법론들이 각 모달리티를 독립적으로 인코딩하는 한계를 극복하기 위해, Cross-Modal Tri-Transformer와 Metric Learning을 활용한 CroMe (Cross-Modal Tri-Transformer and Metric Learning for Multimodal Fake News Detection) 모델을 개발했다. CroMe은 BLIP2를 사용하여 텍스트, 이미지, 이미지-텍스트의 상세한 표현을 추출하고, Metric Learning 모듈을 통해 모달리티 내 관계를 포착하며, Cross-Modal Tri-Transformer를 통해 효과적인 융합을 수행한다. 최종적으로, 융합된 특징을 분류기를 통해 처리하여 콘텐츠의 진위 여부를 예측한다. 실험 결과, CroMe는 멀티모달 가짜 뉴스 탐지에서 뛰어난 성능을 보였다.