본 논문은 생성형 AI 기술을 활용한 TTS(Text-to-Speech)와 VC(Voice-Conversion)의 발전으로 인해 AI 합성 음성과 인간 음성을 구분하는 어려움이 증가하고, 이로 인한 악용 가능성(사칭, 사기, 허위 정보 유포 등)에 대한 우려가 커지고 있음을 지적합니다. 기존의 AI 합성 음성 탐지 방법들이 다양한 데이터셋에서 일반화하는 데 어려움을 겪는다는 점을 고려하여, 본 논문에서는 다양한 AI 음성 합성 플랫폼에서 수집한 새로운 평가 데이터셋을 포함하는 포괄적인 AI 합성 음성 탐지 프레임워크 및 벤치마크인 SONAR를 제시합니다. SONAR은 기존 방식과 기초 모델 기반 탐지 시스템 모두에 걸쳐 AI 음성 탐지를 균일하게 벤치마크하는 최초의 프레임워크입니다. 실험을 통해 기존 탐지 방법의 한계를 밝히고, 기초 모델이 더 강력한 일반화 능력을 보이는 것을 보여줍니다. 또한, 음성 기초 모델의 강력한 교차 언어 일반화 능력과 소수 샷 미세 조정의 효과 및 효율성을 보여줍니다.