Acoustic and perceptual differences between standard and accented speech and their voice clones

Author

Haebom

저자

Tianle Yang, Chengzhe Sun, Phil Rose, Siwei Lyu

💡 개요

본 연구는 음성 복제(voice cloning) 기술에서 표준어와 악센트가 있는 방언 간의 음향적, 지각적 차이를 분석합니다. 악센트가 있는 음성 복제가 원본 음성과 더 큰 차이를 보이는 경향이 있으나, 이는 개별 화자 변동성을 보정하면 사라지는 것으로 나타났습니다. 지각 연구에서는 표준어 복제가 악센트 복제보다 원본과의 유사성이 높게 평가되었으며, 악센트 음성의 명료도가 복제를 통해 더 크게 향상되는 결과를 보였습니다.

🔑 시사점 및 한계

•

음성 복제 시 악센트 보존이 화자 동일성 인식에 중요한 영향을 미친다는 점을 시사합니다.

•

기존의 화자 분리 임베딩 기반 모델이 악센트의 미묘한 차이를 완전히 포착하지 못할 수 있음을 보여줍니다.

•

악센트 보존을 음성 복제의 명시적인 목표로 삼고, 이를 위한 별도의 평가 및 기술 개발이 필요함을 제안합니다.

•

본 연구는 중국어 방언에 국한되었으며, 다양한 언어 및 악센트 환경에서의 추가 연구가 필요합니다.

PDF 보기

Made with Slashpage