Deepfake (DF) 오디오 감지기는 분포 외부 입력에 대한 일반화에 어려움을 겪는 문제가 있다. 이는 신경망이 고주파(HF) 세부 정보보다 저주파 구조를 먼저 학습하는 경향인 스펙트럼 편향 때문이다. 이를 해결하기 위해 Spectral-cONtrastive Audio Residuals (SONAR)를 제안한다. SONAR는 오디오 신호를 상호 보완적인 표현으로 분리하는 주파수 기반 프레임워크이다. XLSR 인코더는 주요 저주파 콘텐츠를 캡처하고, 학습 가능한 SRM, 값 제한 고역 통과 필터가 있는 동일한 경로가 희미한 HF 잔차를 추출한다. 주파수 교차 주의는 장·단기 주파수 종속성을 위해 두 가지 보기를 통합하고, 주파수 인식 Jensen-Shannon 대비 손실은 실제 콘텐츠-노이즈 쌍을 함께 연결하고 가짜 임베딩을 분리하여 최적화를 가속화하고 의사 결정 경계를 선명하게 한다. ASVspoof 2021 및 실제 벤치마크에서 SONAR는 최첨단 성능을 달성했으며 강력한 기준선보다 4배 빠르게 수렴한다.