Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

SnapStream: Efficient Long Sequence Decoding on Dataflow Accelerators

Created by
  • Haebom

저자

Jonathan Li, Nasim Farahini, Evgenii Iuliugin, Magnus Vesterlund, Christian Haggstrom, Guangtao Wang, Shubhangi Upasani, Ayush Sachdeva, Rui Li, Faline Fu, Chen Wu, Ayesha Siddiqua, John Long, Tuowen Zhao, Matheen Musaddiq, Hakan Zeffer, Yun Du, Mingran Wang, Qinghua Li, Bo Li, Urmish Thakker, Raghu Prabhakar

개요

1000억 개 이상의 파라미터를 가진 대규모 언어 모델(LLM)과 10만 개 이상의 컨텍스트 길이를 지원하는 모델의 확산으로 인해 대규모 KV 캐시를 지원하기 위한 온칩 메모리 수요가 증가하고 있습니다. StreamingLLM 및 SnapKV와 같은 기술은 모델 정확도를 유지하면서 KV 캐시 크기를 제어하는 방법을 보여줍니다. 그러나 이러한 기술은 vLLM 또는 SGLang과 같은 프레임워크를 사용하는 산업 배포에서 일반적으로 사용되지 않습니다. 본 논문에서는 Llama-3.1-8B-Instruct 및 DeepSeek-R1에 대한 정확도 영향을 탐구하고, 대규모로 배포할 수 있는 KV 캐시 압축 방법인 SnapStream을 개발했습니다. SambaNova SN40L 가속기에서 DeepSeek-671B의 16방향 텐서 병렬 배포에서 SnapStream의 효율성을 입증했으며, 실제 프로덕션 환경에서 128k 컨텍스트 길이와 최대 초당 1832 토큰으로 실행됩니다. SnapStream은 온칩 메모리 사용량을 4배 향상시키고 LongBench-v2, AIME24 및 LiveCodeBench에서 최소한의 정확도 저하를 보입니다.

시사점, 한계점

시사점:
SnapStream은 KV 캐시 압축 기술로, 온칩 메모리 사용량을 4배 개선했습니다.
LongBench-v2, AIME24 및 LiveCodeBench에서 최소한의 정확도 저하를 보였습니다.
정적 그래프와 연속 배치 방식을 사용하는 프로덕션 추론 시스템에 희소 KV 어텐션 기술을 처음으로 구현했습니다.
한계점:
논문에서 구체적인 한계점은 명시되지 않았습니다.
👍