Acoustic Environment Matching (AEM)은 깨끗한 오디오를 대상 음향 환경으로 변환하는 작업으로, 오디오 더빙 및 청각 몰입형 가상 현실(VR)과 같은 응용 프로그램을 가능하게 합니다. 반향 음성에서 직접 유사한 룸 임펄스 응답(RIR)을 복구하는 것은 더 접근 가능하고 유연한 AEM 솔루션을 제공합니다. 그러나 악의적인 사용자에 의해 오용될 경우, 정교한 음성 스푸핑 공격을 용이하게 하거나 기록된 증거의 진정성을 훼손하는 등 임의적인 "재배치"의 취약성을 초래합니다. 이 문제를 해결하기 위해, 지각적으로 유사한 RIR을 생성하고 워터마크를 삽입하는 최초의 딥 러닝 기반 AEM 프레임워크인 EchoMark를 제안합니다. EchoMark는 서로 다른 지속 시간 및 에너지 감쇠와 같은 가변적인 RIR 특성으로 인해 발생하는 문제를 잠재 영역에서 작동함으로써 해결합니다. RIR 재구성을 위한 지각 손실과 워터마크 감지를 위한 손실로 모델을 공동 최적화함으로써, EchoMark는 고품질의 환경 전송과 신뢰할 수 있는 워터마크 복구를 모두 달성합니다.