본 논문은 발음 평가에서 기존의 softmax 기반 확률(probability-based GOP) 대신 logit 기반 GOP 점수를 사용하는 방법을 제안하고 비교 분석합니다. 네덜란드어 및 만다린어 화자의 L2 영어 말뭉치 두 개를 사용하여 실험을 진행, 분류 성능과 인간 평가자의 점수와의 상관관계를 평가했습니다. 결과적으로 logit 기반 방법이 확률 기반 GOP보다 분류 성능이 우수하지만, 그 효과는 데이터셋 특성에 따라 달라짐을 보였습니다. 최대 logit GOP가 인간의 지각과 가장 잘 일치했으며, 다양한 GOP 점수를 결합하는 하이브리드 방법이 확률 및 logit 특징을 균형 있게 고려하는 것이 효과적임을 제시합니다. 불확실성 모델링과 음소별 가중치 부여를 포함하는 하이브리드 GOP 방법이 발음 평가를 개선할 수 있음을 시사합니다.