본 논문은 딥페이크 오디오 탐지의 어려움을 해결하기 위해 대규모 다양한 딥페이크 오디오 데이터셋인 AUDETER를 제시합니다. 기존 딥페이크 탐지 방법들은 훈련 데이터와 실제 데이터 간의 차이로 인해 실제 환경에서 성능이 저하되는 문제점을 가지고 있는데, AUDETER는 11개의 TTS 모델과 10개의 보코더로 생성된 300만 개 이상의 오디오 클립(총 4,500시간 이상)을 포함하여 이러한 문제를 해결하고자 합니다. 실험 결과, 기존 데이터셋으로 훈련된 최첨단 방법들은 새로운 딥페이크 오디오 샘플에 일반화하는 데 어려움을 겪고 높은 오탐율을 보이는 반면, AUDETER로 훈련된 방법들은 일반화된 탐지 성능을 달성하고 오류율을 크게 줄이는 것으로 나타났습니다.