Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

SnapStream: Efficient Long Sequence Decoding on Dataflow Accelerators

Created by
  • Haebom
Category
Empty

저자

Jonathan Li, Nasim Farahini, Evgenii Iuliugin, Magnus Vesterlund, Christian Haggstrom, Guangtao Wang, Shubhangi Upasani, Ayush Sachdeva, Rui Li, Faline Fu, Chen Wu, Ayesha Siddiqua, John Long, Tuowen Zhao, Matheen Musaddiq, H\r{a}kan Zeffer, Yun Du, Mingran Wang, Qinghua Li, Bo Li, Urmish Thakker, Raghu Prabhakar

개요

1000억 개 이상의 매개변수와 10만 개 이상의 컨텍스트 길이를 지원하는 대규모 언어 모델(LLM)의 확산으로 인해 대규모 KV 캐시를 지원하기 위한 온칩 메모리 요구 사항이 증가했습니다. StreamingLLM 및 SnapKV와 같은 기술은 모델 정확도를 유지하면서 KV 캐시 크기를 제어하는 방법을 보여줍니다. 그러나 이러한 기술은 vLLM 또는 SGLang과 같은 프레임워크를 사용하는 산업 배포에서는 일반적으로 사용되지 않습니다. 본 논문에서는 Llama-3.1-8B-Instruct 및 DeepSeek-R1에 대한 정확도 영향을 탐구하고, 대규모로 배포할 수 있는 KV 캐시 압축 방법인 SnapStream을 개발했습니다. SambaNova SN40L 가속기에서 128k 컨텍스트 길이와 초당 최대 1832 토큰으로 실행되는 DeepSeek-671B의 16방향 텐서 병렬 배포에서 SnapStream의 효능을 입증합니다. SnapStream은 온칩 메모리 사용량을 4배 향상시키고 LongBench-v2, AIME24 및 LiveCodeBench에서 최소한의 정확도 저하를 보입니다. 본 연구는 정적 그래프와 연속 배치 기능을 갖춘 프로덕션 추론 시스템에 배포된 희소 KV 어텐션 기술의 첫 번째 구현입니다.

시사점, 한계점

시사점:
SnapStream은 온칩 메모리 사용량을 4배 향상시킵니다.
LongBench-v2, AIME24 및 LiveCodeBench에서 최소한의 정확도 저하를 보입니다.
정적 그래프와 연속 배치 기능을 갖춘 프로덕션 추론 시스템에 희소 KV 어텐션 기술을 최초로 구현했습니다.
한계점:
해당 논문의 한계점은 명시적으로 언급되지 않았습니다.
👍