# Diffusion Language Models for Speech Recognition

### 저자

Davyd Naveriani, Albert Zeyer, Ralf Schluter, Hermann Ney

### 💡 개요

본 연구는 음성 인식(ASR) 성능 향상을 위해 확산 언어 모델(Diffusion Language Models)을 활용하는 새로운 방법론을 제안합니다. 특히, Masked Diffusion Language Model (MDLM)과 Uniform-State Diffusion Models (USDMs)를 ASR 가설 재평가에 통합하는 방안을 제시하고, CTC(Connectionist Temporal Classification)와 USDM을 결합한 새로운 Joint-Decoding 기법을 설계하여 음향 정보와 언어 정보를 동시에 활용합니다. 실험 결과, 제안된 방법들이 ASR의 인식 정확도를 유의미하게 향상시킴을 입증했습니다.

### 🔑 시사점 및 한계

- 확산 언어 모델(MDLM, USDM)이 ASR의 가설 재평가 단계에서 기존 언어 모델 대비 우수한 성능을 보이며, 이를 통해 인식 정확도를 향상시킬 수 있습니다.

- CTC와 USDM을 결합한 Joint-Decoding 기법은 음향 및 언어 정보를 효과적으로 융합하여 ASR 성능을 더욱 높일 수 있는 새로운 가능성을 제시합니다.

- 제안된 방법론의 계산 복잡성이나 실제 서비스 환경에서의 적용 가능성, 그리고 다양한 언어 및 음성 환경에서의 일반화 성능에 대한 추가적인 검증이 필요할 수 있습니다.

---

[PDF 보기](https://arxiv.org/pdf/2604.14001)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).