Sign In

Self-Supervised Models for Phoneme Recognition: Applications in Children's Speech for Reading Learning

Created by
  • Haebom
Category
Empty

저자

Lucas Block Medin, Thomas Pellegrini, Lucile Gelin

개요

본 논문은 아동 음성 인식 분야의 데이터 부족(특히 비영어권 언어)과 과제의 특수성으로 인해 아직 미개척 분야임을 지적하며, 기존 연구에서 다양한 아동 음성 인식 아키텍처를 탐구한 후 최근 자기 지도 학습 모델을 다룬다. 프랑스어 아동 음성의 음소 인식에 wav2vec 2.0, HuBERT, WavLM 모델을 비교 분석하고, 그 중 성능이 가장 우수한 WavLM base+ 모델을 추가로 개선한다. 구체적으로, 아동 음성에 대한 미세 조정 중 Transformer 블록의 동결을 해제하여 성능을 크게 향상시키고 기존 Transformer+CTC 기반 모델을 능가하는 결과를 얻는다. 마지막으로, 실제 적용 환경에서 두 모델의 동작을 상세히 분석하여 WavLM base+가 다양한 읽기 과제와 소음 수준에 더욱 강건함을 보임을 입증한다.

시사점, 한계점

시사점:
자기 지도 학습 기반 WavLM base+ 모델이 아동 음성 인식에 효과적임을 보여줌.
Transformer 블록 동결 해제를 통한 미세 조정 기법이 성능 향상에 기여함을 제시.
WavLM base+ 모델이 다양한 환경(읽기 과제, 소음 수준)에서 강건한 성능을 보임을 확인.
한계점:
연구 대상 언어가 프랑스어로 제한됨. 다른 언어에 대한 일반화 가능성 검증 필요.
아동 음성 데이터의 양적, 질적 한계가 여전히 존재할 수 있음.
실제 적용 환경에서의 평가가 더욱 다양한 조건을 고려해야 함.
👍