Fuzzy Speculative Decoding (FSD)는 기존의 Speculative Decoding (SD)의 한계를 극복하기 위해 제안된 디코딩 알고리즘입니다. SD는 타겟 모델과의 분포 일치를 엄격하게 요구하여 속도 향상에 제약이 있고, 분포 일치를 유지해야 하므로 추론 속도 향상을 위해 타겟 모델 분포와의 차이를 허용할 수 없습니다. FSD는 타겟 모델과 임시 모델의 분포 차이에 기반하여 후보 토큰을 선택함으로써, 타겟 모델 분포와의 일치를 완화합니다. 이를 통해 생성 품질과 추론 속도 간의 유연한 절충이 가능해집니다. 다양한 벤치마크에서 FSD는 SD보다 초당 5 토큰 이상 빠른 속도를 달성했으며, 정확도 저하는 약 2%에 불과했습니다. 일부 경우에는 SD와 동일한 정확도를 유지하면서 초당 2 토큰 이상 빠른 속도를 보여주어, 타겟 모델 성능 유지를 위해 분포 일치가 반드시 필요하지 않음을 보여줍니다.