Sign In

Perception, Understanding and Reasoning, A Multimodal Benchmark for Video Fake News Detection

Created by
  • Haebom
Category
Empty

저자

Cui Yakun, Fushuo Huo, Weijie Shi, Juntao Dai, Hang Du, Zhenghao Zhu, Sirui Han, Yike Guo

개요

다중 모달 대규모 언어 모델(MLLM)의 출현으로 비디오 가짜 뉴스 탐지(VFND) 연구가 발전했지만, 기존 벤치마크는 최종 결정의 정확성에만 초점을 맞춰 세부적인 평가가 부족했다. 이에 따라 본 연구는 VFND 작업 정의를 위한 기반을 제공하는 MVFNDB(Multi-modal Video Fake News Detection Benchmark)를 소개한다. 이 벤치마크는 10개의 과제로 구성되어 있으며, MLLM의 탐지 과정에서 인식, 이해, 추론 능력을 평가하기 위해 9730개의 사람 주석 비디오 관련 질문을 포함한다. 또한, 제작자가 추가한 콘텐츠와 촬영 원본 영상을 모두 활용하는 MVFND-CoT 프레임워크를 제안하여 여러 특징을 결합했을 때의 영향을 검증한다. 마지막으로, 비디오 처리 전략과 비디오 특징 및 모델 능력 간의 정렬 등 정확도에 영향을 미치는 요인에 대한 심층 분석을 수행한다.

시사점, 한계점

시사점:
VFND 분야에서 MLLM의 평가 및 발전을 위한 새로운 벤치마크 제공
다양한 능력(인식, 이해, 추론)을 평가하는 세분화된 벤치마크 제시
MVFND-CoT 프레임워크를 통해 여러 특징의 결합 효과 검증
정확도에 영향을 미치는 요인에 대한 심층 분석 수행
한계점:
구체적인 한계점은 논문에 명시되지 않음 (추후 연구를 통해 밝혀질 수 있음)
👍