본 논문은 나이지리아 피진 영어를 위한 최첨단 자동 음성 인식(ASR) 시스템 개발에 초점을 맞추고 있습니다. 연구진은 새로운 데이터셋을 사용하여 여러 사전 훈련된 최첨단 아키텍처를 조사하고 평가했습니다. 실험 결과, Wav2Vec2 XLSR-53 변형이 다른 아키텍처(NEMO QUARTZNET 및 Wav2Vec2.0 BASE-100H 등)보다 우수한 성능을 보이며, 테스트 세트에서 29.6%의 단어 오류율(WER)을 달성했습니다. 또한, 사전 훈련된 최첨단 아키텍처가 즉시 잘 작동하지 않음을 보여주는 제로샷 평가(XLSR-English 기준, WER 73.7%)를 수행하고, 데이터셋의 특징에 맞춰 아키텍처를 조정하여 오류를 59.84% 감소시켰습니다. 10명의 원어민 화자가 녹음한 4,288개의 발화로 구성된 데이터셋을 공개하고, Hugging Face에 모델 가중치도 공개하여 향후 연구를 촉진할 계획입니다.