본 논문은 환경음(environmental sound) 딥페이크 탐지에 초점을 맞추고 있다. 기존의 음성 및 노래 딥페이크 탐지 연구가 환경음에는 효과적이지 않다는 점을 지적하며, 환경음 딥페이크 탐지를 위한 대규모 데이터셋 EnvSDD를 제시한다. EnvSDD는 45.25시간의 진짜 음원과 316.74시간의 가짜 음원으로 구성되며, 다양한 조건(미지의 생성 모델 및 데이터셋)을 포함하는 테스트셋을 통해 일반화 성능을 평가한다. 또한, 사전 훈련된 오디오 기반 모델을 사용한 딥페이크 탐지 시스템을 제안하고, EnvSDD에서 기존 최고 성능 시스템보다 우수한 결과를 보임을 보여준다.