Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Towards End-to-End Training of Automatic Speech Recognition for Nigerian Pidgin

Created by
  • Haebom

저자

Amina Mardiyyah Rufai, Afolabi Abeeb, Esther Oduntan, Tayo Arulogun, Oluwabukola Adegboro, Daniel Ajisafe

개요

본 논문은 나이지리아 피진 영어를 위한 최첨단 자동 음성 인식(ASR) 시스템 개발에 초점을 맞추고 있습니다. 연구진은 새로운 데이터셋을 사용하여 여러 사전 훈련된 최첨단 아키텍처를 조사하고 평가했습니다. 실험 결과, Wav2Vec2 XLSR-53 변형이 다른 아키텍처(NEMO QUARTZNET 및 Wav2Vec2.0 BASE-100H 등)보다 우수한 성능을 보이며, 테스트 세트에서 29.6%의 단어 오류율(WER)을 달성했습니다. 또한, 사전 훈련된 최첨단 아키텍처가 즉시 잘 작동하지 않음을 보여주는 제로샷 평가(XLSR-English 기준, WER 73.7%)를 수행하고, 데이터셋의 특징에 맞춰 아키텍처를 조정하여 오류를 59.84% 감소시켰습니다. 10명의 원어민 화자가 녹음한 4,288개의 발화로 구성된 데이터셋을 공개하고, Hugging Face에 모델 가중치도 공개하여 향후 연구를 촉진할 계획입니다.

시사점, 한계점

시사점:
나이지리아 피진 영어와 같은 저자원 언어를 위한 ASR 시스템 개선 가능성을 보여줌.
사전 훈련된 최첨단 아키텍처를 저자원 언어에 적용하기 위한 데이터셋 구축 및 모델 조정 방법 제시.
나이지리아 피진 영어 음성-텍스트 병렬 데이터셋 및 모델 가중치 공개를 통한 연구 공유 및 협업 촉진.
한계점:
데이터셋 크기가 상대적으로 작음 (4,288개 발화).
10명의 화자로부터 수집된 데이터의 일반화 가능성에 대한 추가 연구 필요.
다양한 나이지리아 피진 영어 방언에 대한 고려 부족.
👍