En este artículo, proponemos y comparamos un método que utiliza puntuaciones GOP basadas en logit en lugar del GOP convencional basado en probabilidad basado en softmax para la evaluación de la pronunciación. Realizamos experimentos en dos corpus de inglés L2 de hablantes de holandés y mandarín, y evaluamos la correlación entre el rendimiento de la clasificación y las puntuaciones del evaluador humano. Los resultados muestran que el método basado en logit supera al GOP basado en probabilidad en el rendimiento de la clasificación, pero el efecto varía según las características del conjunto de datos. El GOP logit máximo se ajusta mejor a la percepción humana, lo que sugiere que un método híbrido que combina varias puntuaciones GOP es eficaz para considerar tanto la probabilidad como las características logit de forma equilibrada. Nuestros resultados sugieren que un método GOP híbrido que incluye modelado de incertidumbre y ponderación por fonemas puede mejorar la evaluación de la pronunciación.