AMNet은 구절 구조 주석과 지역적 합성곱 모듈을 통합하여 만다린어 음성 합성 성능을 향상시키도록 설계된 음향 모델 네트워크입니다. FastSpeech 2 아키텍처를 기반으로 하며, 멈춤, 강세, 억양과 같은 복잡한 음성 특징을 포착하는 데 중요한 지역적 맥락 모델링의 과제를 해결합니다. 구절 구조 파서를 모델에 포함하고 지역적 합성곱 모듈을 도입하여 지역 정보에 대한 모델의 민감도를 향상시킵니다. 또한, AMNet은 음조 특성을 음소와 분리하여 음조 모델링에 대한 명시적인 안내를 제공하며, 이는 음조 정확도와 발음을 향상시킵니다. 실험 결과는 AMNet이 주관적 및 객관적 평가에서 기준 모델보다 우수한 성능을 보임을 보여줍니다. 제안된 모델은 우수한 평균 의견 점수(MOS), 낮은 멜 셉스트럼 왜곡(MCD) 및 향상된 기본 주파수 피팅 $F0 (R^2)$을 달성하여 고품질, 자연스럽고 표현력 있는 만다린어 음성을 생성하는 능력을 확인합니다.