Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Leveraging Allophony in Self-Supervised Speech Models for Atypical Pronunciation Assessment

Created by
  • Haebom
Category
Empty

저자

Kwanghee Choi, Eunjung Yeo, Kalvin Chang, Shinji Watanabe, David Mortensen

개요

본 논문은 음소의 변이체(allophone)를 모델링하는 새로운 접근 방식인 MixGoP를 제안합니다. 기존의 음소 분류기 기반 접근 방식이 다양한 변이체를 단일 음소로 취급하는 단순화를 극복하기 위해, MixGoP는 가우시안 혼합 모델을 이용하여 다중 하위 클러스터를 가진 음소 분포를 모델링합니다. 특히, 동결된 자기 지도 학습 음성 모델(S3M) 특징의 음향 모델링 기능을 활용하며, 실험 결과 네 개의 데이터셋(디스아트리아 및 비원어 음성 포함)에서 최첨단 성능을 달성했습니다. S3M 특징이 MFCC 및 Mel 스펙트로그램보다 음소 변이체를 더 효과적으로 포착한다는 분석 결과도 제시합니다.

시사점, 한계점

시사점:
S3M 특징을 활용한 MixGoP가 비정형 발음 평가에서 최첨단 성능을 달성했습니다.
S3M 특징이 MFCC 및 Mel 스펙트로그램보다 allophonic variation을 더 잘 포착함을 보여주었습니다.
가우시안 혼합 모델을 이용한 allophone 모델링의 효용성을 입증했습니다.
한계점:
다섯 개의 데이터셋 중 하나에서는 최첨단 성능을 달성하지 못했습니다.
제안된 방법의 일반화 성능에 대한 추가적인 연구가 필요합니다.
다양한 유형의 비정형 발음에 대한 추가적인 평가가 필요합니다.
👍