Sign In

Decoder-only Conformer with Modality-aware Sparse Mixtures of Experts for ASR

Created by
  • Haebom
Category
Empty

μ €μž

Jaeyoung Lee, Masato Mimura

πŸ’‘ κ°œμš”

λ³Έ 논문은 μ™ΈλΆ€ μŒμ„± μΈμ½”λ”λ‚˜ 사전 ν›ˆλ ¨λœ LLM 없이 단일 디코더 μŠ€νƒμœΌλ‘œ μŒμ„± 및 ν…μŠ€νŠΈλ₯Ό μ²˜λ¦¬ν•˜λŠ” μžλ™ μŒμ„± 인식(ASR)을 μœ„ν•œ 디코더 μ „μš© Conformer λͺ¨λΈμ„ μ œμ•ˆν•©λ‹ˆλ‹€. μ œμ•ˆλœ λͺ¨λΈμ€ μŒμ„± 및 ν…μŠ€νŠΈμ— λŒ€ν•΄ λΆ„λ¦¬λœ μ „λ¬Έκ°€ ν’€κ³Ό ν•˜λ“œ λΌμš°νŒ… 및 top-1 선택을 μ‚¬μš©ν•˜λŠ” λͺ¨λ‹¬λ¦¬ν‹° 인식 ν¬μ†Œ ν˜Όν•© μ „λ¬Έκ°€(MoE)λ₯Ό νŠΉμ§•μœΌλ‘œ ν•˜λ©°, μ΄λŠ” μ–‘λ°©ν–₯ μŒμ„± 및 인과적 ν…μŠ€νŠΈ 처리λ₯Ό μ§€μ›ν•˜λŠ” ν•˜μ΄λΈŒλ¦¬λ“œ 인과성 Conformer 블둝에 λ‚΄μž₯λ©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
μ™ΈλΆ€ μŒμ„± μΈμ½”λ”λ‚˜ LLM 없이도 κ°•λ ₯ν•œ ASR μ„±λŠ₯을 달성할 수 μžˆμŒμ„ λ³΄μ—¬μ£Όμ—ˆμŠ΅λ‹ˆλ‹€.
β€’
λͺ¨λ‹¬λ¦¬ν‹°λ³„ ν¬μ†Œ MoE와 ν•˜μ΄λΈŒλ¦¬λ“œ 인과성 Conformer 블둝을 톡해 효율적이고 μ •ν™•ν•œ μŒμ„±-ν…μŠ€νŠΈ λ³€ν™˜μ„ κ°€λŠ₯ν•˜κ²Œ ν•©λ‹ˆλ‹€.
β€’
λ¬΄μž‘μœ„ μ΄ˆκΈ°ν™”λœ 디코더 μ „μš© ASR λͺ¨λΈμ΄ κ°•λ ₯ν•œ ASR 기쀀선을 λŠ₯κ°€ν•˜λŠ” 졜초의 μ—°κ΅¬λ‘œμ„œ, ν™œμ„± νŒŒλΌλ―Έν„° 수λ₯Ό 쀄이고 좔가적인 μ •λ ¬/적응 λͺ¨λ“ˆ 없이 μ„±λŠ₯을 ν–₯μƒμ‹œμΌ°μŠ΅λ‹ˆλ‹€.
β€’
ν–₯ν›„ μ—°κ΅¬μ—μ„œλŠ” 더 λ‹€μ–‘ν•œ μ–Έμ–΄ 및 μŒμ„± 쑰건에 λŒ€ν•œ λͺ¨λΈμ˜ μΌλ°˜ν™” λŠ₯λ ₯κ³Ό MoE λΌμš°νŒ… λ©”μ»€λ‹ˆμ¦˜μ˜ μ΅œμ ν™” λ°©μ•ˆμ„ 탐ꡬ할 수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘