[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

DPN-GAN: Inducing Periodic Activations in Generative Adversarial Networks for High-Fidelity Audio Synthesis

Created by
  • Haebom

저자

Zeeshan Ahmad, Shudi Bao, Meng Chen

개요

본 논문은 멜 스펙트로그램의 대역폭 제한으로 인한 저해상도 및 조건부 생성 시 모드 붕괴 문제를 해결하기 위해, 주기적 활성화 함수와 변형 가능 합성곱을 활용한 새로운 GAN 구조인 DPN-GAN을 제안합니다. DPN-GAN은 핵 기반 주기적 ReLU 활성화 함수를 도입하여 오디오 생성에 주기적 편향을 유도하고, 변형 가능 합성곱을 이용한 DPN 모듈을 통해 다중 해상도 생성 및 적응적 수용 영역을 구현하여 합성 오디오의 품질과 충실도를 향상시킵니다. 또한, 판별자 네트워크에도 변형 가능 합성곱을 적용하여 실제 및 생성된 샘플을 더 잘 구분하도록 개선합니다. 소규모(38.67M 파라미터)와 대규모(124M 파라미터) 두 가지 버전의 모델을 학습하여 음성 합성 및 음악 생성 작업을 포함한 다섯 가지 데이터셋에서 평가한 결과, 기존 최첨단 GAN 아키텍처보다 우수한 성능과 강건성을 보였습니다. 특히 분포 외 데이터와 잡음이 있는 데이터에 대한 강건성이 뛰어났습니다.

시사점, 한계점

시사점:
멜 스펙트로그램의 한계를 극복하는 새로운 GAN 아키텍처 DPN-GAN 제안.
주기적 활성화 함수와 변형 가능 합성곱을 통한 고품질, 고충실도 오디오 생성.
분포 외 데이터 및 잡음 데이터에 대한 강건성 향상.
음성 합성 및 음악 생성 작업에서 기존 최첨단 모델 성능 능가.
한계점:
논문에서 구체적인 한계점이나 향후 연구 방향에 대한 언급이 부족합니다.
다양한 데이터셋에서의 성능 비교는 있으나, 각 데이터셋의 특징과 그에 따른 모델의 성능 차이에 대한 분석이 부족할 수 있습니다.
모델의 계산 비용 및 메모리 사용량에 대한 자세한 분석이 필요합니다.
👍