BlockBatch: Multi-Scale Consensus Decoding for Efficient Diffusion Language Model Inference

Author

Haebom

저자

Xiaoyou Wu, Cheng-Jhih Shih, Binfei Ji, Yong Liu, Yingyan Celine Lin

💡 개요

본 연구는 확산 언어 모델(dLLMs)의 효율적인 추론을 위해 여러 크기의 블록을 동시에 활용하는 BlockBatch라는 새로운 프레임워크를 제안합니다. BlockBatch는 서로 다른 블록 크기에서 발생하는 KV 캐시 궤적의 유사성과 차이점을 활용하여, 훈련 없이 여러 블록 크기 분기를 동일한 배치 연산 내에서 실행하고 신뢰도 기반 병합, 리더 기반 동기화, 주기적 전체 시퀀스 새로고침을 통해 이를 조율합니다. 실험 결과, BlockBatch는 평균 26.6%의 Denoising NFE를 감소시키고 1.33배의 종단 간 속도 향상을 달성하면서도 정확도를 유지했습니다.

🔑 시사점 및 한계

•

다양한 블록 크기를 병렬적으로 활용하는 것이 dLLM 추론 속도를 높이는 효과적인 방법임을 입증했습니다.

•

훈련 없이 적용 가능한 온라인 추론 프레임워크를 제안하여 실제 적용 가능성을 높였습니다.

•

제안된 기법은 dLLM의 효율적인 확산 모델 추론을 위한 새로운 연구 방향을 제시합니다.

•

다양한 블록 크기의 최적 조합이나 복잡한 모델에서의 성능 변화에 대한 추가적인 연구가 필요합니다.

PDF 보기

Made with Slashpage