Nicolas Muller, Piotr Kawa, Wei-Herng Choong, Adriana Stan, Aditya Tirumala Bukkapatnam, Karla Pizzi, Alexander Wagner, Philip Sperl
개요
본 논문은 재생 공격이 오디오 딥페이크 탐지를 어떻게 무력화하는지 보여줍니다. 다양한 스피커와 마이크를 통해 딥페이크 오디오를 재생하고 재녹음함으로써, 변조된 샘플을 탐지 모델에 진짜처럼 보이도록 만듭니다. 이 현상을 자세히 연구하기 위해, 6개 언어와 4개의 TTS 모델에 걸쳐 109개의 스피커-마이크 조합을 특징으로 하는 M-AILABS와 MLAAD에서 파생된 녹음으로 구성된 ReplayDF 데이터셋을 소개합니다. 여기에는 탐지에 매우 어려운 다양한 음향 조건이 포함됩니다. 5개의 데이터셋에 걸쳐 6개의 오픈소스 탐지 모델에 대한 분석 결과, 최고 성능의 W2V2-AASIST 모델의 EER(Equal Error Rate)가 4.7%에서 18.2%로 급증하는 등 상당한 취약성이 드러났습니다. 적응형 Room Impulse Response (RIR) 재훈련을 사용하더라도, 11.0%의 EER로 성능이 저하됩니다. ReplayDF는 비상업적 연구 목적으로 공개합니다.
시사점, 한계점
•
시사점: 재생 공격에 대한 오디오 딥페이크 탐지 모델의 취약성을 명확히 보여줌. ReplayDF 데이터셋을 통해 다양한 음향 조건에서의 딥페이크 탐지 성능 평가 가능. 오디오 딥페이크 탐지 기술 개발에 있어 재생 공격에 대한 방어 메커니즘 개발의 중요성 강조.
•
한계점: ReplayDF 데이터셋이 특정 TTS 모델과 스피커-마이크 조합에 국한됨. 실제 환경의 모든 변수를 완벽하게 반영하지 못할 가능성 존재. 적응형 RIR 재훈련의 효과가 제한적임을 보여줌. 비상업적 연구용으로만 데이터셋 공개.