Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Replay Attacks Against Audio Deepfake Detection

Created by
  • Haebom

저자

Nicolas Muller, Piotr Kawa, Wei-Herng Choong, Adriana Stan, Aditya Tirumala Bukkapatnam, Karla Pizzi, Alexander Wagner, Philip Sperl

개요

본 논문은 재생 공격이 오디오 딥페이크 탐지에 미치는 영향을 분석합니다. 다양한 스피커와 마이크를 통해 딥페이크 오디오를 재생 및 재녹음하여 탐지 모델에 진짜처럼 보이도록 만드는 방법을 제시합니다. 이 현상을 자세히 연구하기 위해 M-AILABS 및 MLAAD에서 파생된 녹음으로 구성된 ReplayDF 데이터셋을 소개하는데, 이 데이터셋은 6개 언어와 4개의 TTS 모델에 걸쳐 109개의 스피커-마이크 조합을 포함하고 다양한 음향 조건(탐지에 매우 어려운 조건 포함)을 제공합니다. 5개의 데이터셋에 걸쳐 6개의 오픈소스 탐지 모델을 분석한 결과, 최고 성능 모델인 W2V2-AASIST 모델의 EER이 4.7%에서 18.2%로 급증하는 등 상당한 취약성이 드러났습니다. 적응형 Room Impulse Response (RIR) 재훈련을 하더라도 성능은 11.0% EER로 저하된 상태를 유지합니다. ReplayDF는 비상업적 연구용으로 공개됩니다.

시사점, 한계점

시사점: 재생 공격이 오디오 딥페이크 탐지 모델의 성능을 크게 저하시킬 수 있음을 보여줌. ReplayDF 데이터셋을 통해 다양한 음향 조건에서의 오디오 딥페이크 탐지 성능 평가 가능. 오디오 딥페이크 탐지 모델의 강건성 향상을 위한 연구 필요성 제기.
한계점: ReplayDF 데이터셋은 특정 스피커와 마이크 조합, TTS 모델에 국한되어 일반화 가능성에 한계 존재. 적응형 RIR 재훈련을 통한 성능 개선에도 여전히 상당한 EER을 보임. 실제 세계의 다양한 공격 유형을 완전히 포괄하지 못할 가능성 존재.
👍