Sign In

SnapStream: Efficient Long Sequence Decoding on Dataflow Accelerators

Created by
  • Haebom
Category
Empty

저자

Jonathan Li, Nasim Farahini, Evgenii Iuliugin, Magnus Vesterlund, Christian Haggstrom, Guangtao Wang, Shubhangi Upasani, Ayush Sachdeva, Rui Li, Faline Fu, Chen Wu, Ayesha Siddiqua, John Long, Tuowen Zhao, Matheen Musaddiq, Hakan Zeffer, Yun Du, Mingran Wang, Qinghua Li, Bo Li, Urmish Thakker, Raghu Prabhakar

SnapStream: KV Cache Compression for Production LLM Inference

개요

1000억 개 이상의 파라미터와 10만 개 이상의 컨텍스트 길이를 지원하는 대규모 언어 모델(LLM)의 확산으로 인해 온칩 메모리 요구 사항이 증가했습니다. 본 논문에서는 Llama-3.1-8B-Instruct 및 DeepSeek-R1 모델에서 SnapStream이라는 KV 캐시 압축 기법의 정확성 영향을 조사하고, 이를 대규모로 배포할 수 있도록 개발했습니다. SnapStream은 SambaNova SN40L 가속기에서 DeepSeek-671B의 16-way 텐서 병렬 배포를 통해 실제 프로덕션 환경에서 테스트되었으며, 128k 컨텍스트 길이와 최대 1832 tokens/초의 속도를 달성했습니다. SnapStream은 온칩 메모리 사용량을 4배 향상시키면서 LongBench-v2, AIME24 및 LiveCodeBench에서 최소한의 정확도 저하를 보였습니다.

시사점, 한계점

시사점:
SnapStream은 정적 그래프 및 연속 배치 방식을 사용하는 프로덕션 추론 시스템에서 희소 KV 어텐션 기법을 처음으로 구현한 사례입니다.
온칩 메모리 사용량을 4배 향상시켰습니다.
LongBench-v2, AIME24 및 LiveCodeBench에서 최소한의 정확도 저하를 보였습니다.
DeepSeek-671B 모델의 16-way 텐서 병렬 배포에서 실제 프로덕션 환경에서 테스트되었습니다.
한계점:
구체적인 한계점은 논문 내용에서 명시적으로 언급되지 않았습니다.
👍