Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

SwitchLingua: The First Large-Scale Multilingual and Multi-Ethnic Code-Switching Dataset

Created by
  • Haebom

저자

Peng Xie, Xingyuan Liu, Tsz Wai Chan, Yequan Bie, Yangqiu Song, Yang Wang, Hao Chen, Kani Chen

개요

본 논문은 다국어 코드 전환(Code-switching, CS) 음성 인식 시스템의 성능 향상을 위해 대규모 다국어, 다민족 코드 전환 데이터셋인 SwitchLingua를 제시합니다. 기존의 코드 전환 데이터셋이 제한적인 규모와 다양성을 가지는 것에 비해, SwitchLingua는 12개 언어, 174명의 화자(18개 국가/지역, 63개 인종/민족 배경), 42만 개의 텍스트 샘플, 80시간 이상의 오디오 데이터를 포함합니다. 데이터 생성에는 효율적이고 확장 가능한 다에이전트 협업 프레임워크인 LinguaMaster가 사용되었습니다. 또한, 기존의 ASR 평가 지표의 한계를 극복하기 위해 의미 정보를 통합한 새로운 평가 지표인 Semantic-Aware Error Rate (SAER)를 제안합니다.

시사점, 한계점

시사점:
대규모 다국어, 다민족 코드 전환 데이터셋 SwitchLingua 제공을 통해 다국어 음성 인식 기술 발전에 기여.
기존 단일 언어 중심의 ASR 시스템의 한계를 극복하고 다양한 언어 환경 지원 가능성 제시.
의미 정보를 고려한 새로운 평가 지표 SAER 제안을 통해 코드 전환 음성 인식 시스템의 성능 평가 정확도 향상.
다에이전트 협업 프레임워크 LinguaMaster를 통해 효율적이고 확장 가능한 다국어 데이터 생성 방법 제시.
한계점:
SwitchLingua 데이터셋의 균형과 대표성에 대한 추가적인 검증 필요.
SAER 지표의 일반화 가능성 및 다른 코드 전환 시나리오에 대한 적용성 검토 필요.
LinguaMaster 프레임워크의 확장성 및 다양한 언어/문화에 대한 적용 가능성에 대한 추가 연구 필요.
데이터 수집 과정에서 발생할 수 있는 편향성에 대한 고려 및 해결 방안 마련 필요.
👍