Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Accelerating Diffusion Large Language Models with SlowFast Sampling: The Three Golden Principles

Created by
  • Haebom

저자

Qingyan Wei, Yaojie Zhang, Zhiyuan Liu, Dongrui Liu, Linfeng Zhang

개요

확산 기반 언어 모델(dLLMs)은 병렬 토큰 생성을 가능하게 하고 추론 지연 시간을 크게 줄임으로써 기존의 자기회귀 LLMs에 대한 유망한 대안으로 떠올랐습니다. 그러나 신뢰도 기반 또는 반자기회귀 디코딩과 같은 기존 dLLMs의 샘플링 전략은 종종 정적 동작으로 인해 최적의 효율성과 유연성이 제한됩니다. 본 논문에서는 탐색적 디코딩 단계와 가속 디코딩 단계를 적응적으로 번갈아 수행하는 새로운 동적 샘플링 전략인 SlowFast Sampling을 제안합니다. 본 방법은 토큰을 신뢰하고 효율적으로 디코딩할 수 있는 시점과 위치를 제어하는 확실성 원칙, 수렴 원칙, 위치 원칙이라는 세 가지 원칙에 따라 안내됩니다. 또한 중복 계산을 줄이기 위해 dLLM-Cache와 전략을 통합합니다. 다양한 벤치마크와 모델에 대한 광범위한 실험 결과, SlowFast Sampling은 LLaDA에서 정확도 저하를 최소화하면서 최대 15.63배의 속도 향상을 달성하고, 캐싱과 결합하면 최대 34.22배의 속도 향상을 달성합니다. 특히, 제안하는 방법은 처리량 측면에서 LLaMA3 8B와 같은 강력한 자기회귀 기준 모델보다 뛰어난 성능을 보이며, 잘 설계된 샘플링이 빠르고 고품질의 생성을 위한 dLLMs의 잠재력을 최대한 발휘할 수 있음을 보여줍니다.

시사점, 한계점

시사점:
확산 기반 언어 모델의 추론 속도를 획기적으로 향상시키는 새로운 동적 샘플링 전략인 SlowFast Sampling 제시.
LLaDA에서 최대 15.63배, 캐싱과 결합 시 최대 34.22배의 속도 향상 달성.
자기회귀 기반 모델보다 높은 처리량 달성.
잘 설계된 샘플링 전략을 통해 dLLM의 잠재력을 극대화할 수 있음을 증명.
한계점:
제시된 방법의 일반화 성능에 대한 추가적인 연구 필요.
다양한 dLLM 아키텍처 및 크기에 대한 성능 평가 추가 필요.
SlowFast Sampling의 세 가지 원칙(확실성, 수렴, 위치)의 파라미터 조정에 대한 자세한 설명 부족. 최적 파라미터 설정 방법에 대한 추가 연구 필요.
👍