본 논문은 다양한 미디어 유형 중 특히 사회적 문제가 심각한 오디오 딥페이크 탐지에 초점을 맞추고 있다. 10개의 오디오 딥페이크 탐지 모델(기존 딥러닝 모델 및 최신 기초 모델 포함)의 16가지 일반적인 오디오 손상(잡음, 변형, 압축)에 대한 강건성을 체계적으로 평가하였다. 평가 결과, 대부분의 모델은 잡음에는 강건하지만 변형 및 압축(특히 신경 코덱 적용 시)에는 취약한 것으로 나타났다. 기초 모델은 자기 지도 학습 및 대규모 사전 훈련으로 인해 기존 모델보다 성능이 우수하며, 모델 크기 증가는 강건성 향상에 기여하지만 수확체감이 나타난다. 또한, 목표 지향적 데이터 증강을 통한 훈련은 미지의 잡음에 대한 모델의 강건성을 향상시킬 수 있음을 보여주었고, 정치 연설 딥페이크 사례 연구를 통해 실제 환경에서 기초 모델의 높은 정확도를 확인하였다. 결론적으로, 실제 배포 환경에서 신뢰성을 확보하기 위해 더욱 강건한 탐지 프레임워크 개발의 중요성을 강조한다.