본 논문은 블록 확산 언어 모델(Block Diffusion Language Model)을 제안합니다. 자동회귀 모델의 한계인 고정 길이 생성과 확산 모델의 한계인 우도 모델링 부족을 극복하기 위해, 이산 잡음 제거 확산과 자동회귀 모델의 장점을 결합한 새로운 모델입니다. KV 캐싱과 병렬 토큰 샘플링을 통해 추론 효율성을 높이고, 유연한 길이 생성을 지원합니다. 효율적인 훈련 알고리즘, 기울기 분산 추정기, 그리고 데이터 기반 노이즈 일정표를 포함하는 효과적인 블록 확산 모델 구축 방법을 제시하며, 언어 모델링 벤치마크에서 최첨단 성능을 달성하고 임의 길이의 시퀀스 생성을 가능하게 합니다. 코드, 모델 가중치, 그리고 블로그 게시물은 프로젝트 페이지(https://m-arriola.com/bd3lms/)에서 확인할 수 있습니다.
시사점, 한계점
•
시사점:
◦
확산 모델의 병렬 생성 및 제어 가능성의 장점과 자동회귀 모델의 우도 모델링 성능을 결합하여 기존 모델의 한계를 극복했습니다.
◦
유연한 길이 생성을 지원하여 다양한 길이의 시퀀스 생성이 가능해졌습니다.
◦
KV 캐싱 및 병렬 토큰 샘플링을 통해 추론 효율성을 향상시켰습니다.
◦
언어 모델링 벤치마크에서 최첨단 성능을 달성했습니다.
◦
효과적인 블록 확산 모델 구축을 위한 구체적인 방법론을 제시했습니다.
•
한계점:
◦
논문에서 구체적인 한계점이 언급되지 않았습니다. 향후 연구를 통해 추가적인 개선이 필요할 수 있습니다.