Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Toward Conversational Hungarian Speech Recognition: Introducing the BEA-Large and BEA-Dialogue Datasets

Created by
  • Haebom
Category
Empty

저자

Mate Gedeon, Piroska Zsofia Barta, Peter Mihajlik, Tekla Etelka Graczi, Anna Kohari, Katalin Mady

개요

헝가리어 음성 기술 발전을 위해, 기존 BEA 헝가리어 음성 코퍼스에서 처리되지 않은 부분을 활용하여 두 개의 새로운 데이터셋, BEA-Large와 BEA-Dialogue를 소개합니다. BEA-Large는 433명의 화자로부터 255시간의 자발적인 음성을 포함하며 세분화된 메타데이터를 제공합니다. BEA-Dialogue는 85시간의 자발적인 대화를 담은 헝가리어 음성 코퍼스로, 대화형 ASR 및 화자 다이어라이제이션 연구를 지원합니다. 공개 ASR 모델을 사용하여 데이터셋에 대한 재현 가능한 baseline을 구축했으며, fine-tuned Fast Conformer 모델은 자발적 음성에서 14.18%, 반복된 음성에서 4.8%의 단어 오류율을 달성했습니다. 다이어라이제이션 실험에서는 13.05%에서 18.26% 사이의 오류율을 보였습니다.

시사점, 한계점

헝가리어 음성 기술 발전에 기여: BEA-Large 및 BEA-Dialogue 데이터셋 릴리스를 통해 헝가리어 음성 기술 연구를 진전시킴.
자발적이고 대화적인 음성 연구 지원: 특히 대화형 ASR 및 화자 다이어라이제이션 연구를 위한 데이터셋 제공.
재현 가능한 baseline 제공: 공개 ASR 모델을 활용한 baseline 구축을 통해 연구의 비교 및 발전을 용이하게 함.
대화형 ASR의 어려움 강조: 유창하지 않음, 중첩, 비공식적인 음성 패턴 등으로 인해 대화형 ASR이 여전히 어려운 과제임을 보여줌.
다국어 연구를 위한 방법론적 프레임워크 제공: 다른 언어의 자발적이고 대화적인 벤치마크 개발을 위한 방법론적 틀을 제시.
👍