본 논문은 심층 학습 기반 오디오 워터마킹 알고리즘의 평가를 위한 표준화된 벤치마크 및 체계적인 비교를 가능하게 하는 프레임워크를 제시한다. 실제 사용 환경을 시뮬레이션하기 위해 압축, 배경 잡음, 반향과 같은 다양한 왜곡을 포함하는 포괄적인 오디오 공격 파이프라인과 음성, 환경 소음, 음악 녹음을 포함하는 다양한 테스트 데이터 세트를 소개한다. 제시된 프레임워크에서 기존의 네 가지 워터마킹 알고리즘의 성능을 평가한 결과, 신경망 압축 기술이 알고리즘이 이러한 압축으로 훈련된 경우에도 가장 큰 과제를 제기하며, 오디오 공격으로 훈련하면 일반적으로 강건성이 향상되지만 일부 경우에는 충분하지 않다는 두 가지 주요 통찰력을 얻었다. 또한, 극성 반전, 시간 스트레칭 또는 반향과 같은 특정 왜곡이 특정 알고리즘에 심각한 영향을 미친다는 것을 발견했다. 본 연구의 결과는 광범위한 응용 분야에서 오디오 워터마킹 알고리즘의 강건성과 지각 평가를 강화하는 동시에 공정하고 일관된 평가 방식을 보장한다. 공격 파이프라인을 포함한 평가 프레임워크는 github.com/SonyResearch/wm_robustness_eval에서 이용 가능하다.