Sign In

Fuzzy Speculative Decoding for a Tunable Accuracy-Runtime Tradeoff

Created by
  • Haebom
Category
Empty

저자

Maximilian Holsman, Yukun Huang, Bhuwan Dhingra

개요

Fuzzy Speculative Decoding (FSD)는 기존 Speculative Decoding (SD)의 한계를 극복하기 위해 제안된 디코딩 알고리즘입니다. SD는 타겟 모델과의 분포적 동등성을 엄격하게 적용하여 속도 향상에 제약이 있고, 분포적 동등성을 유지해야 하므로 추론 속도 향상을 위해 타겟 모델 분포에서의 편차를 허용하지 못합니다. FSD는 타겟 모델과 임시 모델 분포 간의 divergence를 기반으로 후보 토큰을 허용함으로써, 타겟 모델과의 분포적 동등성을 완화합니다. 이를 통해 사용자는 생성 품질과 추론 속도 간의 유연한 절충이 가능합니다.

시사점, 한계점

시사점:
타겟 모델과의 분포적 동등성이 반드시 필요하지 않음을 보여줌.
SD보다 추론 속도를 유의미하게 향상시킴 (초당 5토큰 이상).
일부 경우 SD와 동일한 정확도를 유지하면서 더 빠른 속도를 달성.
생성 품질과 추론 속도 간의 유연한 절충 가능.
한계점:
FSD가 SD보다 정확도가 약 2% 정도 낮을 수 있음 (하지만 많은 경우 동일한 정확도를 달성).
FSD의 성능 향상은 사용하는 벤치마크에 따라 달라질 수 있음. (논문에서 제시된 벤치마크에 국한된 결과일 수 있음)
👍