Advancing Arabic Speech Recognition Through Large-Scale Weakly Supervised Learning
Created by
Haebom
저자
Mahmoud Salhab, Marwan Elghitany, Shameed Sait, Syed Sibghat Ullah, Mohammad Abusheikh, Hasan Abusheikh
개요
본 논문은 저자원 언어인 아랍어에 대한 자동 음성 인식(ASR) 모델 개발의 어려움을 해결하기 위해 약하게 감독된 학습 기법을 활용한 연구 결과를 제시합니다. 15,000시간 분량의 약하게 주석된 아랍어 음성 데이터(MSA 및 방언 포함)를 사용하여 Conformer 아키텍처 기반의 ASR 모델을 처음부터 학습시켰습니다. 수동 전사 과정을 생략함으로써 비용 효율성을 높였으며, 기존 방식을 뛰어넘는 최첨단 성능을 달성했습니다. 이는 저자원 언어 환경에서 ASR 시스템 개선을 위한 새로운 가능성을 제시합니다.
시사점, 한계점
•
시사점:
◦
저자원 언어인 아랍어에 대한 ASR 성능을 크게 향상시켰습니다.
◦
약하게 감독된 학습이 저자원 언어 ASR 개발에 효과적인 대안임을 입증했습니다.
◦
비용 효율적인 대규모 ASR 모델 학습 방법을 제시했습니다.
◦
최첨단(SOTA) 성능을 달성했습니다.
•
한계점:
◦
약하게 주석된 데이터를 사용했으므로, 완벽하게 주석된 데이터를 사용한 모델에 비해 성능의 한계가 존재할 수 있습니다.
◦
사용된 데이터의 특성(MSA 및 방언 포함)에 따라 다른 저자원 언어에 적용 시 성능이 달라질 수 있습니다.