Este artículo aborda la detección y diagnóstico de errores de pronunciación (MDD), un componente fundamental de los sistemas de aprendizaje de idiomas asistido por computadora (CALL). En particular, nos centramos en la evaluación de la pronunciación a nivel de fonemas e intentamos superar las limitaciones del método actual de Bondad de Pronunciación (GOP), basado en la segmentación de unidades fonemáticas mediante diccionario. Para ello, proponemos un método GOP autoalineado (GOP-SA) que permite el uso de modelos acústicos basados en CTC y un método GOP sin alineación (GOP-AF) que no requiere alineación. GOP-AF considera todas las alineaciones posibles y presentamos una implementación para la resolución numérica de problemas y un método de normalización que permite su aplicación en diversos modelos acústicos. Comparamos y analizamos el rendimiento de los métodos propuestos mediante experimentos con los conjuntos de datos CMU Kids y Speechocean762, y evaluamos la influencia de la intensidad de pico y la información contextual del modelo acústico. Finalmente, demostramos que los métodos propuestos logran un rendimiento de última generación en la evaluación de la pronunciación a nivel de fonemas al compararlos con estudios recientes basados en el conjunto de datos Speechocean762.