# Efficient-DLM: From Autoregressive to Diffusion Language Models, and Beyond in Speed

### 저자

Yonggan Fu, Lexington Whalen, Zhifan Ye, Xin Dong, Shizhe Diao, Jingyu Liu, Chengyue Wu, Hao Zhang, Enze Xie, Song Han, Maksim Khadkevich, Jan Kautz, Yingyan Celine Lin, Pavlo Molchanov

### 💡 개요

이 논문은 기존 자동회귀(AR) 언어 모델을 고속의 비자기회귀 확산 언어 모델(dLM)로 효율적으로 변환하는 새로운 방법론을 제시합니다. 기존 AR-to-dLM 변환 방식의 한계를 극복하기 위해, AR 모델의 가중치 분포를 보존하는 블록별 인과적 주의 패턴과 훈련-추론 간 마스크 토큰 분포 차이를 줄이는 위치 의존적 마스킹 전략을 제안합니다. 이를 통해 정확도와 속도 모두에서 기존 최신 모델들을 능가하는 Efficient-DLM 모델을 개발했습니다.

### 🔑 시사점 및 한계

- **AR 모델의 장점을 유지하며 dLM의 속도 이점을 얻을 수 있는 실용적인 변환 방법론 제시**: pretrained AR 모델을 활용하여 효율적인 dLM을 구축함으로써, 기존 모델의 성능을 유지하면서도 생성 속도를 획기적으로 개선할 수 있습니다.

- **AR-to-dLM 변환의 성능 향상을 위한 구체적인 원칙 및 기법 제시**: 가중치 분포 보존을 위한 주의 패턴 설계와 훈련-추론 불일치 완화를 위한 마스킹 전략 등은 향후 AR-to-dLM 연구 및 실제 적용에 중요한 지침을 제공합니다.

- **대규모 모델에서의 확장성 및 효율성 검증**: Efficient-DLM 모델은 다양한 크기에서 최신 AR 및 dLM 모델 대비 우수한 성능을 보여주었으며, 이는 실제 서비스 적용 가능성을 시사합니다.

- **dLM 학습의 근본적인 비효율성**: 비록 변환 방법론을 제시했지만, dLM 자체의 학습 효율성이 AR 모델보다 낮다는 점은 여전히 해결해야 할 과제입니다.

- **변환 과정에서의 최적화 복잡성**: 제안된 방법론이 기존 AR 모델에 적용될 때, 특정 모델 구조나 훈련 데이터에 따라 추가적인 미세 조정 및 최적화가 필요할 수 있습니다.

[PDF 보기](https://arxiv.org/pdf/2512.14067)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).