Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Speculative Decoding in Decentralized LLM Inference: Turning Communication Latency into Computation Throughput

Created by
  • Haebom
Category
Empty

저자

Jingwei Song, Wanyi Chen, Xinyuan Song, Max, Chris Tong, Gufeng Chen, Tianyi Zhao, Eric Yang, Bill Shi, Lynn Ai

개요

분산 추론 환경에서 네트워크 지연 문제를 해결하기 위해 경량 초안 모델을 사용하여 토큰을 제안하고 강력한 대상 모델이 검증하는 분산 추측 디코딩(DSD) 프레임워크를 제안합니다. DSD는 분산 노드에서 여러 후보 토큰을 병렬로 검증하여 통신 지연을 유용한 계산으로 전환합니다. 또한, 토큰 수준의 의미적 중요도에 따라 허용 임계값을 조정하는 적응형 추측 검증 전략을 도입하여 재훈련 없이 15%에서 20%의 추가적인 엔드투엔드 속도 향상을 제공합니다. DSD는 HumanEval에서 최대 2.56배, GSM8K에서 2.59배의 속도 향상을 달성하며, Eagle3 baseline을 능가합니다.

시사점, 한계점

시사점:
분산 추론 환경에서 네트워크 지연을 극복하기 위한 새로운 프레임워크 제시.
적응형 추측 검증 전략을 통해 추가적인 성능 향상 달성.
모델 재훈련이나 아키텍처 변경 없이 속도 향상을 이룸.
HumanEval 및 GSM8K에서 기존 baseline을 능가하는 성능 입증.
한계점:
논문에서 구체적인 한계점 언급은 없음.
👍