Mega-ASR: Towards In-the-wild^2 Speech Recognition via Scaling up Real-world Acoustic Simulation

작성자

Haebom

카테고리

비어 있음

저자

Zhifei Xie, Kaiyu Pang, Haobin Zhang, Deheng Ye, Xiaobin Hu, Shuicheng Yan, Chunyan Miao

💡 개요

본 논문은 실제 환경에서의 음성 인식 성능 저하를 야기하는 "음향 강건성 병목 현상"을 해결하기 위해 Mega-ASR이라는 통합적인 ASR-in-the-wild 프레임워크를 제안한다. 이 프레임워크는 확장 가능한 복합 데이터 구축과 점진적인 음향-의미 최적화를 결합하며, 2백만 개의 음향 현상과 54가지 복합 시나리오를 포함하는 Voices-in-the-Wild-2M 데이터셋을 활용한다. 이를 통해 Mega-ASR은 기존 최고 성능 모델 대비 악조건 음향 인식 벤치마크에서 상당한 성능 향상을 달성했다.

🔑 시사점 및 한계

•

실제 환경의 다양한 음향 왜곡에 강건한 음성 인식 모델 개발의 새로운 패러다임을 제시한다.

•

복합적인 음향 시나리오에서의 성능 저하를 효과적으로 개선하여 실제 적용 가능성을 높였다.

•

학습 데이터셋의 다양성과 모델의 점진적인 최적화 기법이 음향 강건성 향상에 중요한 역할을 함을 보여준다.

•

아직 다루지 못한 극한의 음향 환경이나 복합적인 왜곡에 대한 추가적인 연구가 필요할 수 있다.

PDF 보기

Slashpage로 제작됨