확산 기반 언어 모델(dLLMs)은 병렬 토큰 생성을 가능하게 하고 추론 지연 시간을 크게 줄임으로써 기존의 자기회귀 LLMs에 대한 유망한 대안으로 떠올랐습니다. 그러나 신뢰도 기반 또는 반자기회귀 디코딩과 같은 기존 dLLMs의 샘플링 전략은 종종 정적 동작으로 인해 최적의 효율성과 유연성이 제한됩니다. 본 논문에서는 탐색적 디코딩 단계와 가속 디코딩 단계를 적응적으로 번갈아 수행하는 새로운 동적 샘플링 전략인 SlowFast Sampling을 제안합니다. 본 방법은 토큰을 신뢰하고 효율적으로 디코딩할 수 있는 시점과 위치를 제어하는 확실성 원칙, 수렴 원칙, 위치 원칙이라는 세 가지 원칙에 따라 안내됩니다. 또한 중복 계산을 줄이기 위해 dLLM-Cache와 전략을 통합합니다. 다양한 벤치마크와 모델에 대한 광범위한 실험 결과, SlowFast Sampling은 LLaDA에서 정확도 저하를 최소화하면서 최대 15.63배의 속도 향상을 달성하고, 캐싱과 결합하면 최대 34.22배의 속도 향상을 달성합니다. 특히, 제안하는 방법은 처리량 측면에서 LLaMA3 8B와 같은 강력한 자기회귀 기준 모델보다 뛰어난 성능을 보이며, 잘 설계된 샘플링이 빠르고 고품질의 생성을 위한 dLLMs의 잠재력을 최대한 발휘할 수 있음을 보여줍니다.