Fuzzy Speculative Decoding (FSD)는 기존의 Speculative Decoding (SD)의 한계를 극복하기 위해 제안된 디코딩 알고리즘입니다. SD는 목표 모델과의 분포 일치를 엄격하게 요구하여 속도 향상에 제약이 있고, 분포 편차를 이용한 추가적인 속도 향상도 불가능합니다. FSD는 목표 모델과 임시 모델의 분포 차이만을 기반으로 후보 토큰을 선택하여 이러한 문제를 해결합니다. 목표 모델과의 분포 편차를 허용함으로써, 생성 품질과 추론 속도 간의 유연한 절충을 가능하게 합니다. 다양한 벤치마크에서 FSD는 SD보다 초당 5토큰 이상 빠른 속도를 달성하면서 정확도는 약 2%만 감소시켰으며, 경우에 따라서는 SD와 동일한 정확도를 유지하면서 초당 2토큰 이상 빠른 속도를 보였습니다. 이를 통해 목표 모델 성능 유지를 위해 분포 일치가 필수적이지 않음을 보여줍니다.