Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

AUDETER: A Large-scale Dataset for Deepfake Audio Detection in Open Worlds

Created by
  • Haebom

저자

Qizhou Wang, Hanxun Huang, Guansong Pang, Sarah Erfani, Christopher Leckie

개요

본 논문은 딥페이크 오디오 탐지의 어려움을 해결하기 위해 대규모 다양한 딥페이크 오디오 데이터셋인 AUDETER를 제시합니다. 기존 딥페이크 탐지 방법들은 훈련 데이터와 실제 데이터 간의 차이로 인해 실제 환경에서 성능이 저하되는 문제점을 가지고 있는데, AUDETER는 11개의 TTS 모델과 10개의 보코더로 생성된 300만 개 이상의 오디오 클립(총 4,500시간 이상)을 포함하여 이러한 문제를 해결하고자 합니다. 실험 결과, 기존 데이터셋으로 훈련된 최첨단 방법들은 새로운 딥페이크 오디오 샘플에 일반화하는 데 어려움을 겪고 높은 오탐율을 보이는 반면, AUDETER로 훈련된 방법들은 일반화된 탐지 성능을 달성하고 오류율을 크게 줄이는 것으로 나타났습니다.

시사점, 한계점

시사점:
대규모 다양한 딥페이크 오디오 데이터셋 AUDETER를 제공하여 딥페이크 오디오 탐지 분야의 발전에 기여합니다.
AUDETER를 활용한 실험을 통해 기존 딥페이크 탐지 방법의 한계를 명확히 제시하고, 일반화된 탐지 모델 개발의 필요성을 강조합니다.
AUDETER 기반 훈련을 통해 딥페이크 탐지 성능을 크게 향상시킬 수 있음을 보여줍니다. (오류율 4.17% 달성)
한계점:
AUDETER의 다양성에도 불구하고, 실제 세상의 모든 딥페이크 오디오 유형을 완벽하게 포괄하지 못할 수 있습니다.
새로운 딥페이크 생성 기술의 등장에 따라 AUDETER의 유효성이 시간이 지남에 따라 감소할 가능성이 있습니다.
데이터셋의 크기가 크지만, 특정 유형의 딥페이크 오디오가 과소 또는 과대 표현될 가능성이 존재할 수 있습니다.
👍