AMNet là một mạng mô hình âm thanh được thiết kế để cải thiện hiệu suất tổng hợp giọng nói tiếng Quan Thoại bằng cách tích hợp chú thích cấu trúc cụm từ và các mô-đun tích chập cục bộ. Dựa trên kiến trúc FastSpeech 2, nó giải quyết thách thức của mô hình hóa ngữ cảnh cục bộ, điều này rất quan trọng để nắm bắt các đặc điểm giọng nói phức tạp như ngắt quãng, nhấn mạnh và ngữ điệu. Nó kết hợp một trình phân tích cú pháp cấu trúc cụm từ vào mô hình và giới thiệu một mô-đun tích chập cục bộ để cải thiện độ nhạy của mô hình đối với thông tin cục bộ. Ngoài ra, AMNet cung cấp hướng dẫn rõ ràng để mô hình hóa thanh điệu bằng cách tách các đặc điểm thanh điệu khỏi âm vị, giúp cải thiện độ chính xác của thanh điệu và cách phát âm. Kết quả thử nghiệm cho thấy AMNet vượt trội hơn các mô hình cơ sở trong cả đánh giá chủ quan và khách quan. Mô hình đề xuất đạt được điểm ý kiến trung bình (MOS) tuyệt vời, Độ méo tiếng Mel Cepstral (MCD) thấp và cải thiện khả năng khớp tần số cơ bản $F0(R^2)$, xác minh khả năng tạo ra giọng nói tiếng Quan Thoại chất lượng cao, tự nhiên và biểu cảm.