저자들은 저자원 언어를 사용하는 아동의 말하기 유창성을 자동으로 평가하는 시스템을 제안합니다. 이 시스템은 미세 조정된 다국어 음성 인식(ASR) 모델, 객관적인 지표 추출 단계 및 생성 사전 훈련 변환기(GPT) 네트워크를 결합합니다. 객관적인 지표로는 음운 및 단어 오류율, 발화 속도, 발화-정지 시간 비율이 포함되며, 이는 소량의 인간 평가 기준 데이터로 안내되는 GPT 기반 분류기를 통해 유창성 점수를 매깁니다. 타밀어와 말레이어라는 두 가지 저자원 언어를 사용하는 아동의 말하기 데이터 세트에서 제안된 시스템을 평가하고, 랜덤 포레스트와 XGBoost와 비교하며, ChatGPT-4를 사용하여 음성 입력으로부터 직접 유창성을 예측하는 것과 비교합니다. 결과는 제안된 접근 방식이 다중 모드 GPT 또는 기타 방법보다 정확도가 훨씬 높음을 보여줍니다.