Florinel-Alin Croitoru, Vlad Hondru, Marius Popescu, Radu Tudor Ionescu, Fahad Shahbaz Khan, Mubarak Shah
개요
다국어 오디오-비디오 딥페이크 탐지에 대한 최초의 대규모 오픈셋 벤치마크를 제시합니다. 본 데이터셋은 8개 언어에 걸쳐 250시간 이상의 실제 및 가짜 비디오를 포함하며, 60%가 생성된 데이터입니다. 각 언어에 대해, 생성된 콘텐츠의 품질을 기반으로 선택된 7개의 서로 다른 딥페이크 생성 모델을 사용하여 가짜 비디오를 생성했습니다. 훈련 중에는 선택된 생성 모델과 언어의 하위 집합만 사용할 수 있도록 훈련, 검증 및 테스트 분할을 구성하여 여러 가지 어려운 오픈셋 평가 설정을 만듭니다. 최근 문헌에서 제안된 다양한 사전 훈련 및 미세 조정된 딥페이크 탐지기를 사용하여 실험을 수행했습니다. 결과는 최첨단 탐지기가 오픈셋 시나리오에서 테스트될 때 현재 성능 수준을 유지할 수 없음을 보여줍니다. 데이터와 코드는 https://huggingface.co/datasets/unibuc-cs/MAVOS-DD 에서 공개적으로 공개합니다.