본 논문은 짧은 참조 오디오만으로도 고정확도의 음성 복제가 가능한 최근의 TTS 음성 복제 기술의 프라이버시 문제를 해결하기 위해, 제로샷 음성 복제에 대한 방어를 위한 범용 시간 영역 적대적 섭동 프레임워크인 CloneShield를 제안합니다. CloneShield는 다양한 발화에 대해 강력한 보호 기능을 제공하며, 합성된 텍스트에 대한 사전 지식이 필요하지 않습니다. 멜 스펙트로그램 표현을 통해 적대적 섭동을 분해하고 각 샘플에 대해 미세 조정하여 자연스러운 청각적 인식을 유지하며, 다중 목적 최적화 문제로 섭동 생성을 공식화하고 다중 기울기 하강 알고리즘(MGDA)을 제안하여 강력한 보호 기능을 제공합니다. 실험 결과, 보호된 입력의 오디오 품질은 거의 원본 수준(PESQ = 3.90, SRS = 0.93)을 유지하면서, 복제된 샘플의 화자 유사성 및 음성 품질을 크게 저하(PESQ = 1.07, SRS = 0.08)시키는 것으로 나타났습니다.