Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Accelerating Diffusion LLMs via Adaptive Parallel Decoding

Created by
  • Haebom

저자

Daniel Israel, Guy Van den Broeck, Aditya Grover

개요

본 논문은 자기회귀적 디코딩의 병목 현상으로 인해 느린 LLM 생성 속도를 해결하기 위해, 병렬 토큰 생성을 허용하는 확산형 LLM(dLLM)에 대한 새로운 방법인 적응형 병렬 디코딩(APD)을 제시합니다. APD는 dLLM의 주변 확률과 작은 보조 자기회귀 모델의 시퀀스 결합 확률 간의 곱셈 혼합을 정의하여 병렬로 샘플링되는 토큰 수를 동적으로 조절합니다. 이는 기존의 추측적 디코딩 방식을 반전시키는 것으로, 작은 모델로부터 초안을 작성하여 큰 자기회귀 검증기로부터 샘플링하는 대신, dLLM의 효율성을 높입니다. KV 캐싱 및 마스크된 입력 크기 제한을 통해 APD를 최적화하여 처리량과 품질 간의 유연한 절충을 가능하게 하는 세 가지 조정 가능한 매개변수를 제시합니다. 실험 결과, APD는 하류 벤치마크에서 최소한의 품질 저하로 현저히 높은 처리량을 제공함을 보여줍니다.

시사점, 한계점

시사점:
자기회귀적 디코딩의 속도 제한 문제를 해결할 수 있는 새로운 방법(APD) 제시.
dLLM의 병렬 토큰 생성 가능성을 실질적으로 향상시킴.
처리량과 품질 간의 유연한 절충을 위한 조정 가능한 매개변수 제공.
최소한의 품질 저하로 높은 처리량 달성.
한계점:
제시된 방법의 성능이 특정 하류 벤치마크에 국한될 가능성.
보조 자기회귀 모델의 크기 및 성능에 대한 의존성.
세 가지 조정 가능한 매개변수의 최적 값 설정에 대한 추가 연구 필요.
다양한 dLLM 아키텍처 및 크기에 대한 일반화 가능성에 대한 추가 검증 필요.
👍