본 논문은 GAN 기반 음성 변환(VC) 모델의 자연스러움 개선을 위해 다중 판별기를 활용하는 새로운 GAN 모델인 CLOT-GAN을 제안합니다. 기존 SOTA GAN-VC 모델들이 단일 생성자-판별자 학습 방식을 사용하여 실제 음성과의 자연스러움 격차가 큰 점을 해결하기 위해, Deep Convolutional Neural Network (DCNN), Vision Transformer (ViT), Conformer 등 다양한 판별기를 통합하여 mel-spectrogram의 formant 분포를 포괄적으로 이해하도록 설계되었습니다. 또한 Optimal Transport (OT) loss를 도입하여 원본과 목표 데이터 분포 간의 차이를 정확히 줄임으로써 음성 변환 성능을 향상시킵니다. VCC 2018, VCTK, CMU-Arctic 데이터셋을 이용한 실험 결과, CLOT-GAN-VC 모델은 기존 VC 모델들보다 객관적 및 주관적 평가 모두에서 우수한 성능을 보였습니다.