Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

PRESERVE: Prefetching Model Weights and KV-Cache in Distributed LLM Serving

Created by
  • Haebom

저자

Ahmet Caner Yuzuguler, Jiawei Zhuang, Lukas Cavigelli

개요

본 논문은 대규모 언어 모델(LLM) 추론 시 발생하는 장치 간 통신 오버헤드 문제를 해결하기 위해 새로운 프레임워크인 PRESERVE를 제안한다. PRESERVE는 통신 작업 중에 오프칩 HBM 메모리에서 AI 가속기의 온칩 캐시로 모델 가중치와 KV-캐시를 미리 가져와(Prefetch) 통신과 연산을 겹치는 기존 방식의 한계를 극복한다. 실험 결과, 최첨단 오픈소스 LLM에서 최대 1.6배의 종단 간 속도 향상을 보였으며, 최적의 L2 캐시 크기를 선택함으로써 비용 대비 성능을 1.25배 더 향상시킬 수 있음을 보였다. 결론적으로 PRESERVE는 LLM 추론 시스템의 성능과 확장성을 향상시키는 솔루션을 제공한다.

시사점, 한계점

시사점:
LLM 추론의 성능 저하 원인인 통신 오버헤드 문제에 대한 효과적인 해결책 제시
기존의 통신과 연산 중첩 방식의 한계를 극복하는 새로운 프레임워크 PRESERVE 제안
최대 1.6배의 종단 간 속도 향상 및 비용 대비 성능 1.25배 향상이라는 실험적 결과 제시
최적의 하드웨어 구성을 위한 설계 공간 탐색 결과 제공
한계점:
특정 상용 AI 가속기에서의 실험 결과만 제시되어 다른 하드웨어 환경에서의 일반화 가능성에 대한 검토 필요
PRESERVE의 구현 및 적용에 필요한 추가적인 하드웨어/소프트웨어 자원에 대한 고려 필요
다양한 크기와 구조의 LLM에 대한 실험 결과가 제한적일 수 있음. 다양한 모델에 대한 추가적인 실험 필요.
👍