Sign In

Distributed Speculative Inference (DSI): Speculation Parallelism for Provably Faster Lossless Language Model Inference

Created by
  • Haebom
Category
Empty

저자

Nadav Timor, Jonathan Mamou, Daniel Korat, Moshe Berchansky, Oren Pereg, Moshe Wasserblat, Tomer Galanti, Michal Gordon, David Harel

개요

본 논문은 기존의 speculative inference (SI) 알고리즘보다 빠른 새로운 추론 알고리즘인 distributed speculative inference (DSI)를 제안합니다. DSI는 기존 SI 알고리즘과 마찬가지로 사전 훈련된 언어 모델을 사용하며, 모델의 훈련이나 구조 변경 없이도 목표 분포를 유지합니다. 기존 SI 연구는 비 SI 방식보다 빠른 속도를 보였으나, 실제로는 충분히 빠르고 정확한 drafter가 부족하여 SI가 비 SI보다 느릴 수 있다는 한계점을 가지고 있었습니다. DSI는 어떤 drafter를 사용하더라도 SI와 비 SI보다 빠르다는 것을 증명하여 이러한 한계점을 극복합니다. DSI는 speculation parallelism (SP)이라는 새로운 작업 병렬화 기법을 활용하여 목표 및 drafter 인스턴스 간의 시간적 중복을 조정함으로써 계산 자원과 지연 시간 간의 새로운 기본적인 절충안을 제시합니다. 실험 결과, DSI는 다양한 상용 언어 모델과 작업에서 단일 노드 설정에서 SI보다 1.29~1.92배 빠른 속도를 보였습니다. 모든 코드는 공개되었습니다.

시사점, 한계점

시사점:
기존 SI의 한계를 극복하는 새로운 추론 알고리즘 DSI 제안
어떤 drafter를 사용하더라도 SI 및 비 SI보다 빠른 속도 보장
speculation parallelism (SP)이라는 새로운 작업 병렬화 기법 제시
다양한 상용 언어 모델 및 작업에서 SI 대비 1.29~1.92배 속도 향상 확인
모든 코드 공개를 통한 연구의 재현성 및 확장성 확보
한계점:
현재는 단일 노드 설정에서의 성능 평가만 진행되었으며, 다중 노드 환경에서의 성능은 추가적인 연구가 필요함.
다양한 drafter에 대한 실험 결과가 제시되었지만, drafter의 성능에 따른 DSI 성능 변화에 대한 상세한 분석이 부족함.
실제 응용 환경에서의 성능 및 효율성에 대한 추가적인 검증이 필요함.
👍