Sign In

Arabic Little STT: Arabic Children Speech Recognition Dataset

Created by
  • Haebom
Category
Empty

저자

Mouhand Alkadri, Dania Desouki, Khloud Al Jallad

개요

본 논문은 인공지능(AI) 시스템의 성능이 고품질 훈련 데이터에 의존한다는 점을 고려하여, 아랍어를 사용하는 아이들의 음성 데이터 부족 문제를 해결하기 위해 레반트 아랍어 어린이 음성 데이터셋인 "Arabic Little STT"를 구축하고, 이를 기반으로 최첨단 자동 음성 인식(ASR) 모델인 Whisper의 성능을 평가합니다. 총 288명의 어린이(6~13세)의 355개 발화로 구성된 데이터셋을 사용하여 Whisper의 8가지 변형 모델을 평가한 결과, 성인 데이터셋 대비 어린이 음성 인식 성능이 현저히 낮음을 확인했습니다.

시사점, 한계점

시사점:
어린이 음성 데이터의 중요성을 강조하고, 아랍어와 같은 저자원 언어의 어린이 음성 인식 기술 개발의 필요성을 제시함.
Whisper 모델의 어린이 음성 인식 성능 저하를 확인함으로써, 어린이 음성 데이터의 부재가 ASR 모델 성능에 미치는 영향을 입증함.
공개 데이터셋 제공을 통해 어린이 음성 데이터의 부족 문제를 해결하고, 관련 연구 활성화를 위한 기반을 마련함.
한계점:
제한된 규모의 데이터셋(355개 발화)을 사용함에 따라 일반화된 결론을 도출하는 데 제약이 있음.
어린이 음성 데이터 수집 시 윤리적 및 개인 정보 보호에 대한 고려 사항을 강조하지만, 구체적인 방법론 제시의 부족함.
다양한 아랍어 방언을 포괄하지 못하고 레반트 아랍어에 국한되어, 일반적인 아랍어 어린이 음성 인식 모델 개발에 한계가 있을 수 있음.
👍