Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Building Robust and Scalable Multilingual ASR for Indian Languages

Created by
  • Haebom
Category
Empty

저자

Arjun Gangwar, Kaousheik Jayakumar, S. Umesh

개요

SPRING Lab, Indian Institute of Technology Madras에서 ASRU MADASR 2.0 챌린지를 위해 개발한 시스템을 설명한다. 이 시스템은 8개 언어, 33개 방언에 걸쳐 발화의 언어 및 방언을 예측하는 ASR 시스템을 개선하는 데 중점을 둔다. 추가 데이터 사용이 제한된 Track 1과 Track 2에 참여하여, 처음부터 다국어 시스템을 개발했다. Phonemic Common Label Set (CLS)을 중간 표현으로 하는 Multi-Decoder 아키텍처를 사용하여 새로운 훈련 방식을 제시했다. 이는 기준선(CLS 공간에서)보다 성능을 향상시켰다. 또한 phonemic 공간에서 얻은 이점을 해당 grapheme 표현으로 변환하는 다양한 방법을 논의한다. 이 시스템은 Track 2에서 3개 언어에 대해 WER/CER 측면에서 기준선을 능가했으며, 모든 참가 팀 중 최고 언어 ID 및 방언 ID 정확도를 달성했다.

시사점, 한계점

Multi-Decoder 아키텍처와 Phonemic Common Label Set (CLS)을 활용한 새로운 훈련 방식 제시
CLS 공간에서 성능 향상
phonemic 공간의 이점을 grapheme 표현으로 변환하는 다양한 방법 탐구
Track 2에서 3개 언어의 WER/CER 개선
최고 언어 ID 및 방언 ID 정확도 달성
추가 데이터 사용 제한 환경에서의 시스템 개발
구체적인 한계점에 대한 언급 없음
👍