본 논문은 자기회귀적 디코딩의 병목 현상으로 인해 느린 LLM 생성 속도를 해결하기 위해, 병렬 토큰 생성을 허용하는 확산형 LLM(dLLM)에 대한 새로운 방법인 적응형 병렬 디코딩(APD)을 제시합니다. APD는 dLLM의 주변 확률과 작은 보조 자기회귀 모델의 시퀀스 결합 확률 간의 곱셈 혼합을 정의하여 병렬로 샘플링되는 토큰 수를 동적으로 조절합니다. 이는 기존의 추측적 디코딩 방식을 반전시키는 것으로, 작은 모델로부터 초안을 작성하여 큰 자기회귀 검증기로부터 샘플링하는 대신, dLLM의 효율성을 높입니다. KV 캐싱 및 마스크된 입력 크기 제한을 통해 APD를 최적화하여 처리량과 품질 간의 유연한 절충을 가능하게 하는 세 가지 조정 가능한 매개변수를 제시합니다. 실험 결과, APD는 하류 벤치마크에서 최소한의 품질 저하로 현저히 높은 처리량을 제공함을 보여줍니다.