Bài báo này đề cập đến phát hiện và chẩn đoán lỗi phát âm (MDD), một phần quan trọng của các hệ thống học ngôn ngữ hỗ trợ máy tính (CALL). Cụ thể, chúng tôi tập trung vào đánh giá phát âm ở cấp độ âm vị và cố gắng khắc phục những hạn chế của phương pháp Goodness of Pronunciation (GOP) hiện có dựa trên phân đoạn từ điển của các đơn vị âm vị. Để đạt được mục đích này, chúng tôi đề xuất một phương pháp GOP tự căn chỉnh (GOP-SA) cho phép sử dụng các mô hình âm học dựa trên CTC và một phương pháp GOP không căn chỉnh (GOP-AF) không yêu cầu căn chỉnh. GOP-AF xem xét tất cả các căn chỉnh có thể có và chúng tôi trình bày một triển khai để giải quyết vấn đề số và một phương pháp chuẩn hóa để có thể áp dụng cho nhiều mô hình âm học khác nhau. Chúng tôi so sánh và phân tích hiệu suất của các phương pháp được đề xuất thông qua các thí nghiệm sử dụng các tập dữ liệu CMU Kids và Speechocean762 và đánh giá ảnh hưởng của cường độ đỉnh và thông tin ngữ cảnh của mô hình âm học. Cuối cùng, chúng tôi chứng minh rằng các phương pháp đề xuất đạt hiệu suất tiên tiến nhất trong đánh giá phát âm ở cấp độ âm vị bằng cách so sánh chúng với các nghiên cứu gần đây dựa trên tập dữ liệu Speechocean762.