Mega-ASR: Towards In-the-wild^2 Speech Recognition via Scaling up Real-world Acoustic Simulation

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
λΉ„μ–΄ 있음

μ €μž

Zhifei Xie, Kaiyu Pang, Haobin Zhang, Deheng Ye, Xiaobin Hu, Shuicheng Yan, Chunyan Miao

πŸ’‘ κ°œμš”

λ³Έ 논문은 μ‹€μ œ ν™˜κ²½μ—μ„œμ˜ μŒμ„± 인식 μ„±λŠ₯ μ €ν•˜λ₯Ό μ•ΌκΈ°ν•˜λŠ” "음ν–₯ 강건성 병λͺ© ν˜„μƒ"을 ν•΄κ²°ν•˜κΈ° μœ„ν•΄ Mega-ASRμ΄λΌλŠ” 톡합적인 ASR-in-the-wild ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œμ•ˆν•œλ‹€. 이 ν”„λ ˆμž„μ›Œν¬λŠ” ν™•μž₯ κ°€λŠ₯ν•œ 볡합 데이터 ꡬ좕과 점진적인 음ν–₯-의미 μ΅œμ ν™”λ₯Ό κ²°ν•©ν•˜λ©°, 2백만 개의 음ν–₯ ν˜„μƒκ³Ό 54κ°€μ§€ 볡합 μ‹œλ‚˜λ¦¬μ˜€λ₯Ό ν¬ν•¨ν•˜λŠ” Voices-in-the-Wild-2M 데이터셋을 ν™œμš©ν•œλ‹€. 이λ₯Ό 톡해 Mega-ASR은 κΈ°μ‘΄ 졜고 μ„±λŠ₯ λͺ¨λΈ λŒ€λΉ„ 악쑰건 음ν–₯ 인식 λ²€μΉ˜λ§ˆν¬μ—μ„œ μƒλ‹Ήν•œ μ„±λŠ₯ ν–₯상을 λ‹¬μ„±ν–ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
μ‹€μ œ ν™˜κ²½μ˜ λ‹€μ–‘ν•œ 음ν–₯ μ™œκ³‘μ— κ°•κ±΄ν•œ μŒμ„± 인식 λͺ¨λΈ 개발의 μƒˆλ‘œμš΄ νŒ¨λŸ¬λ‹€μž„μ„ μ œμ‹œν•œλ‹€.
β€’
볡합적인 음ν–₯ μ‹œλ‚˜λ¦¬μ˜€μ—μ„œμ˜ μ„±λŠ₯ μ €ν•˜λ₯Ό 효과적으둜 κ°œμ„ ν•˜μ—¬ μ‹€μ œ 적용 κ°€λŠ₯성을 λ†’μ˜€λ‹€.
β€’
ν•™μŠ΅ λ°μ΄ν„°μ…‹μ˜ λ‹€μ–‘μ„±κ³Ό λͺ¨λΈμ˜ 점진적인 μ΅œμ ν™” 기법이 음ν–₯ 강건성 ν–₯상에 μ€‘μš”ν•œ 역할을 함을 보여쀀닀.
β€’
아직 닀루지 λͺ»ν•œ κ·Ήν•œμ˜ 음ν–₯ ν™˜κ²½μ΄λ‚˜ 볡합적인 μ™œκ³‘μ— λŒ€ν•œ 좔가적인 연ꡬ가 ν•„μš”ν•  수 μžˆλ‹€.
πŸ‘