Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Beyond Face Swapping: A Diffusion-Based Digital Human Benchmark for Multimodal Deepfake Detection

Created by
  • Haebom

저자

Jiaxin Liu, Jia Wang, Saihui Hou, Min Ren, Huijia Wu, Long Ma, Renwang Pei, Zhaofeng He

개요

본 논문은 심층 위변조 기술의 발전으로 인해 발생하는 공공 안전 위협에 대응하기 위해, 확산 모델 기반의 대규모 다중 모달 디지털 인간 위변조 데이터셋인 DigiFakeAV를 제시합니다. DigiFakeAV는 5가지 최신 디지털 인간 생성 방법과 음성 복제 방법을 활용하여 60,000개의 비디오(840만 프레임)로 구성되며, 다양한 국적, 피부색, 성별, 현실적인 시나리오를 포함하여 데이터 다양성과 현실성을 크게 향상시켰습니다. 사용자 연구 결과, DigiFakeAV에 대한 오인식률이 68%에 달하는 것으로 나타났으며, 기존 탐지 모델의 성능 저하를 통해 DigiFakeAV의 어려움을 강조합니다. 이 문제를 해결하기 위해, 본 논문에서는 비디오의 3D 시공간 특징과 오디오의 의미론적-음향적 특징을 공동으로 모델링하는 시공간 및 교차 모달 융합 기반의 효과적인 탐지 기준 모델인 DigiShield를 제안합니다. DigiShield는 DigiFakeAV에서 최첨단(SOTA) 성능을 달성하고 다른 데이터셋에서도 강력한 일반화 성능을 보여줍니다.

시사점, 한계점

시사점:
대규모 다중 모달 디지털 인간 위변조 데이터셋 DigiFakeAV를 제공하여 심층 위변조 탐지 연구에 기여.
기존 탐지 모델의 한계를 명확히 보여주는 새로운 벤치마크 제시.
시공간 및 교차 모달 융합 기반의 효과적인 위변조 탐지 모델 DigiShield 제안 및 SOTA 성능 달성.
더욱 현실적이고 다양한 위변조 비디오 탐지 연구를 위한 기반 마련.
한계점:
DigiFakeAV 데이터셋의 범위가 모든 가능한 위변조 유형을 완벽하게 포괄하지 못할 수 있음.
DigiShield 모델의 일반화 성능은 데이터셋의 다양성에 따라 달라질 수 있음.
새로운 위변조 기술이 등장하면 DigiShield의 성능이 저하될 가능성 존재.
실제 세상의 위변조 비디오와의 차이로 인해 실제 적용에 대한 한계 존재.
👍