Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Multi-modal Deepfake Detection and Localization with FPN-Transformer

Created by
  • Haebom
Category
Empty

저자

Chende Zheng, Ruiqi Suo, Zhoulin Ji, Jingyi Deng, Fangbin Yi, Chenhao Lin, Chao Shen

개요

생성적 적대 신경망(GAN)과 확산 모델의 발전으로 현실적인 딥페이크 콘텐츠가 증가하면서, 오디오-비주얼 영역에서 디지털 신뢰에 대한 위협이 커지고 있습니다. 단일 모달 감지 방법의 한계를 극복하기 위해, 본 논문은 특징 피라미드-트랜스포머(FPN-Transformer) 기반의 다중 모달 딥페이크 감지 및 위치 파악 프레임워크를 제안합니다. 사전 훈련된 자기 지도 학습 모델(오디오 WavLM, 비디오 CLIP)을 사용하여 계층적 시계열 특징을 추출하고, 국소적 주의 메커니즘을 갖춘 R-TLM 블록을 통해 다중 스케일 특징 피라미드를 구성하여 교차 컨텍스트 시간 종속성을 공동으로 분석합니다. 이중 분기 예측 헤드는 위조 확률을 예측하고 조작된 세그먼트의 시간적 오프셋을 정제하여 프레임 수준의 정밀도를 달성합니다. IJCAI'25 DDL-AV 벤치마크 테스트 세트에서 0.7535 점수를 기록하여, 일반화된 딥페이크 감지에 효과적임을 입증했습니다.

시사점, 한계점

시사점:
FPN-Transformer 기반의 다중 모달 딥페이크 감지 및 위치 파악 프레임워크 제안.
사전 훈련된 자기 지도 학습 모델(WavLM, CLIP) 활용하여 특징 추출.
교차 컨텍스트 시간 종속성 분석을 위한 R-TLM 블록 및 국소적 주의 메커니즘 사용.
프레임 수준의 딥페이크 위치 파악 가능.
IJCAI'25 DDL-AV 벤치마크에서 우수한 성능 달성 (0.7535점).
일반화된 딥페이크 감지를 위한 새로운 방법 제시.
한계점:
논문에서 구체적인 한계점에 대한 언급은 없음.
👍