Fuzzy Speculative Decoding (FSD)는 기존 Speculative Decoding (SD)의 한계를 극복하기 위해 제안된 디코딩 알고리즘입니다. SD는 타겟 모델과의 분포적 동등성을 엄격하게 적용하여 속도 향상에 제약이 있고, 분포적 동등성을 유지해야 하므로 추론 속도 향상을 위해 타겟 모델 분포에서의 편차를 허용하지 못합니다. FSD는 타겟 모델과 임시 모델 분포 간의 divergence를 기반으로 후보 토큰을 허용함으로써, 타겟 모델과의 분포적 동등성을 완화합니다. 이를 통해 사용자는 생성 품질과 추론 속도 간의 유연한 절충이 가능합니다.