Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Collective Learning Mechanism based Optimal Transport Generative Adversarial Network for Non-parallel Voice Conversion

Created by
  • Haebom

저자

Sandipan Dhar, Md. Tousin Akhter, Nanda Dulal Jana, Swagatam Das

개요

본 논문은 GAN 기반 음성 변환(VC) 모델의 자연스러움 개선을 위해 다중 판별기를 활용하는 새로운 GAN 모델인 CLOT-GAN을 제안합니다. 기존 SOTA GAN-VC 모델들이 단일 생성자-판별자 학습 방식을 사용하여 실제 음성과의 자연스러움 격차가 큰 점을 해결하기 위해, Deep Convolutional Neural Network (DCNN), Vision Transformer (ViT), Conformer 등 다양한 판별기를 통합하여 mel-spectrogram의 formant 분포를 포괄적으로 이해하도록 설계되었습니다. 또한 Optimal Transport (OT) loss를 도입하여 원본과 목표 데이터 분포 간의 차이를 정확히 줄임으로써 음성 변환 성능을 향상시킵니다. VCC 2018, VCTK, CMU-Arctic 데이터셋을 이용한 실험 결과, CLOT-GAN-VC 모델은 기존 VC 모델들보다 객관적 및 주관적 평가 모두에서 우수한 성능을 보였습니다.

시사점, 한계점

시사점:
다중 판별자 활용을 통해 GAN 기반 음성 변환 모델의 자연스러움을 향상시킬 수 있음을 보임.
Optimal Transport loss를 적용하여 원본과 목표 데이터 분포 간의 차이를 효과적으로 줄일 수 있음을 확인.
제안된 CLOT-GAN-VC 모델이 기존 모델들보다 우수한 성능을 보임을 실험적으로 검증.
한계점:
제안된 모델의 계산 비용 및 복잡도에 대한 분석이 부족함.
다양한 음성 특징 및 데이터셋에 대한 일반화 성능에 대한 추가적인 연구가 필요함.
주관적 평가에 대한 상세한 내용이 부족함.
👍