Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Interpolating Speaker Identities in Embedding Space for Data Expansion

Created by
  • Haebom

저자

Tianchi Liu, Ruijie Tao, Qiongqiong Wang, Yidi Jiang, Hardik B. Sailor, Ke Zhang, Jingru Lin, Haizhou Li

개요

본 논문은 대규모 다양한 화자 데이터에 대한 접근성에 크게 의존하는 심층 학습 기반 화자 인증 시스템의 한계를 해결하기 위해, 기존 화자 임베딩 간 보간을 통해 새로운 화자 ID를 합성하는 새로운 데이터 확장 방법인 INSIDE(Interpolating Speaker Identities in Embedding Space)를 제안합니다. INSIDE는 사전 훈련된 화자 임베딩 공간에서 가까운 화자 임베딩 쌍을 선택하고, 구면 선형 보간을 사용하여 중간 임베딩을 계산합니다. 이러한 보간된 임베딩은 음성 합성 시스템에 입력되어 해당 음성 파형을 생성하고, 생성된 데이터는 원본 데이터셋과 결합되어 하위 모델을 훈련하는 데 사용됩니다. 실험 결과, INSIDE로 확장된 데이터로 훈련된 모델은 실제 데이터로만 훈련된 모델보다 성능이 우수하며, 화자 인증에서 3.06%~5.24%의 상대적 성능 향상을 달성했습니다. 성별 분류 작업에서도 13.44%의 상대적 성능 향상을 보였으며, 다른 증강 기법과도 호환 가능하여 기존 훈련 파이프라인에 유연하고 확장 가능한 추가 기능으로 활용될 수 있습니다.

시사점, 한계점

시사점:
제한된 데이터로도 심층 학습 기반 화자 인증 및 관련 작업의 성능을 향상시킬 수 있는 효과적인 데이터 증강 기법을 제시합니다.
화자 인증 뿐 아니라 성별 분류와 같은 다른 작업에도 적용 가능성을 보여줍니다.
기존 훈련 파이프라인에 쉽게 통합될 수 있는 유연하고 확장 가능한 방법입니다.
한계점:
보간된 화자 임베딩이 실제 화자의 특징을 완벽하게 반영하지 못할 수 있습니다.
음성 합성 시스템의 성능에 따라 생성된 데이터의 품질이 영향을 받을 수 있습니다.
개인정보보호 문제에 대한 추가적인 고려가 필요할 수 있습니다. (데이터 합성 과정에서 개인 정보 유출 가능성)
👍