Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Do Not Mimic My Voice: Speaker Identity Unlearning for Zero-Shot Text-to-Speech

작성자
  • Haebom

저자

Taesoo Kim, Jinju Kim, Dongchan Kim, Jong Hwan Ko, Gyeong-Moon Park

개요

본 논문은 Zero-Shot Text-to-Speech (ZS-TTS) 기술의 급속한 발전으로 인해 발생하는 개인 정보 및 윤리적 문제, 특히 원치 않는 개별 음성 복제 가능성에 대한 우려를 해결하기 위해, ZS-TTS 시스템에서 특정 화자의 정보를 선택적으로 제거하는 방법을 제시한다. 특히 Teacher-Guided Unlearning (TGU)이라는 새로운 기계 학습 언러닝 프레임워크를 제안하여, 특정 화자의 음성을 잊도록 모델을 학습시키면서 다른 화자의 음성 생성 능력은 유지하도록 한다. 또한, 잊혀진 화자의 음성이 추적 불가능하도록 랜덤성을 도입하고, 새로운 평가 지표인 speaker-Zero Retrain Forgetting (spk-ZRF)를 제안하여 모델의 잊혀진 화자 관련 프롬프트 무시 능력을 평가한다. 실험 결과, TGU가 다른 화자의 음성 품질을 유지하면서 잊혀진 화자의 음성 복제를 방지하는 것을 보여준다.

시사점, 한계점

시사점:
ZS-TTS 시스템의 개인 정보 보호 및 윤리적 문제 해결에 대한 새로운 접근법 제시.
Teacher-Guided Unlearning (TGU) 프레임워크를 통한 효과적인 화자 정보 제거 방법 제안.
새로운 평가 지표 spk-ZRF를 통해 모델의 화자 정보 제거 성능 정확히 측정 가능.
원치 않는 음성 복제 방지 및 개인 정보 보호 향상에 기여.
한계점:
제안된 방법의 일반화 성능 및 다양한 ZS-TTS 모델에 대한 적용 가능성에 대한 추가 연구 필요.
spk-ZRF 지표 외 다른 평가 지표를 활용한 추가적인 성능 검증 필요.
완벽한 화자 정보 제거의 어려움 및 잔류 정보의 존재 가능성에 대한 추가적인 분석 필요.
👍