BemaGANv2는 고품질의 장기간 오디오 생성을 위해 설계된 고급 GAN 기반 보코더에 대한 튜토리얼 스타일의 서베이 및 구현 가이드를 제시합니다. 텍스트-음악 (TTM) 및 텍스트-오디오 (TTA) 시스템에서 장기간의 시간적 일관성, 운율적 일관성, 그리고 조화로운 구조를 유지하는 것은 중요한 과제입니다. BemaGANv2는 기존 BemaGAN 아키텍처를 기반으로 하며, 생성기의 전통적인 ResBlocks를 Snake 활성화 함수를 내부적으로 적용하여 주기적 구조를 더 잘 모델링하는 Anti-aliased Multi-Periodicity composition (AMP) 모듈로 대체하는 주요 아키텍처 혁신을 통합했습니다. 판별기 프레임워크에서는 주기성 감지에 중요한 풍부한 시간적 엔벨로프 특징을 추출하기 위해 제안된 새로운 아키텍처인 Multi-Envelope Discriminator (MED)를 통합했습니다. Multi-Resolution Discriminator (MRD)와 결합하여 오디오의 장거리 종속성을 더 정확하게 모델링할 수 있습니다. Multi-Scale Discriminator (MSD) + MED, MSD + MRD, 그리고 Multi-Period Discriminator (MPD) + MED + MRD를 포함한 다양한 판별기 구성을 객관적 지표 (Frechet Audio Distance (FAD), Structural Similarity Index (SSIM), Pearson Correlation Coefficient (PCC), Mel-Cepstral Distortion (MCD))와 주관적 평가 (MOS, SMOS)를 사용하여 체계적으로 평가합니다. 또한, 재현성을 높이기 위해 모델 아키텍처, 훈련 방법론 및 구현에 대한 포괄적인 튜토리얼을 제공합니다.