Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

dInfer: An Efficient Inference Framework for Diffusion Language Models

Created by
  • Haebom

저자

Yuxin Ma, Lun Du, Lanning Wei, Kun Chen, Qian Xu, Kangyu Wang, Guofeng Feng, Guoshan Lu, Lin Liu, Xiaojing Qi, Xinyuan Zhang, Zhen Tao, Haibo Feng, Ziyun Jiang, Ying Xu, Zenan Huang, Yihong Zhuang, Haokai Xu, Jiaqi Hu, Zhenzhong Lan, Junbo Zhao, Jianguo Li, Da Zheng

dInfer: Efficient and Extensible Framework for Diffusion-based Large Language Model Inference

개요

dInfer는 diffusion 기반 대규모 언어 모델(dLLM) 추론을 위한 효율적이고 확장 가능한 프레임워크입니다. 이 프레임워크는 모델, diffusion 반복 관리자, 디코딩 전략, KV-캐시 관리자의 네 가지 모듈 구성 요소로 추론 파이프라인을 분해하며, 각 구성 요소에 새로운 알고리즘과 시스템 수준 최적화를 통합합니다. dInfer는 LLaDA-MoE에서 출력 품질을 저하시키지 않으면서 상당한 효율성 향상을 달성했습니다. 배치 크기 1에서 HumanEval에서 초당 1,100 토큰 이상을 처리하며, 8 x H800 GPU에서 6개의 벤치마크에서 평균 초당 800 토큰 이상을 처리합니다. dInfer는 이전 시스템에 비해 Fast-dLLM보다 10배 빠른 속도를 제공하며, AR 모델 QWen2.5-3B (활성화 매개변수 및 성능이 유사하고 최신 vLLM 추론 엔진으로 고도로 최적화됨)에 비해서도 2~3배 빠른 속도를 제공합니다.

시사점, 한계점

시사점:
dLLM 추론을 위한 효율적이고 확장 가능한 프레임워크를 제시하여 dLLM의 대중화에 기여할 수 있음.
알고리즘 혁신과 시스템 개선을 통해 상당한 속도 향상을 달성.
기존 시스템 및 AR 모델보다 우수한 성능을 보임.
오픈 소스 코드를 통해 연구 및 개발 커뮤니티에 기여.
한계점:
구체적인 한계점은 논문 요약에서 명시되지 않음. (예: 특정 모델에 대한 제한, 메모리 사용량 등)
논문에서 다루는 벤치마크 및 모델의 범위가 제한적일 수 있음.
👍