Speculative Decoding in Decentralized LLM Inference: Turning Communication Latency into Computation Throughput
Created by
Haebom
Category
Empty
저자
Jingwei Song, Wanyi Chen, Xinyuan Song, Max, Chris Tong, Gufeng Chen, Tianyi Zhao, Eric Yang, Bill Shi, Lynn Ai
개요
분산 추론 환경에서 네트워크 지연 문제를 해결하기 위해 경량 초안 모델을 사용하여 토큰을 제안하고 강력한 대상 모델이 검증하는 분산 추측 디코딩(DSD) 프레임워크를 제안합니다. DSD는 분산 노드에서 여러 후보 토큰을 병렬로 검증하여 통신 지연을 유용한 계산으로 전환합니다. 또한, 토큰 수준의 의미적 중요도에 따라 허용 임계값을 조정하는 적응형 추측 검증 전략을 도입하여 재훈련 없이 15%에서 20%의 추가적인 엔드투엔드 속도 향상을 제공합니다. DSD는 HumanEval에서 최대 2.56배, GSM8K에서 2.59배의 속도 향상을 달성하며, Eagle3 baseline을 능가합니다.