Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Faster LLM Inference using DBMS-Inspired Preemption and Cache Replacement Policies

Created by
  • Haebom

저자

Kyoungmin Kim, Jiacheng Li, Kijae Hong, Anastasia Ailamaki

개요

LLM은 일상적인 작업부터 에이전트 시스템, 데이터 분석에 이르기까지 전 세계적으로 널리 사용되고 있으며, 상당한 GPU 리소스를 필요로 한다. 그러나 LLM 추론 시스템은 데이터베이스 시스템에 비해 속도가 느리며, 추론 성능과 메커니즘은 종종 블랙 박스로 여겨져 데이터베이스 및 기타 성능이 중요한 응용 프로그램 내에서 LLM 사용 확장을 제한한다. 본 논문은 LLM 추론 성능을 분석하고 LLM 추론 내 데이터 관리 문제에 초점을 맞춘다. 특히, 동시 추론 요청을 실행할 때 GPU 메모리에 캐시된 중간 결과와 함께 요청을 예약하기 위한 적절한 리소스 비용 모델과 최적화 전략이 부족하다는 것을 발견했다. 본 논문에서는 동시 추론 요청에 대한 비용 모델과 LLM 추론에 맞춘 새로운 캐시 교체 정책을 구축하여 고전적인 데이터베이스 기술을 적용하여 GPU 비용을 크게 절감할 수 있다.

시사점, 한계점

시사점:
LLM 추론 시스템의 성능 개선을 위한 데이터 관리 문제 해결에 초점을 맞춤.
동시 추론 요청 처리를 위한 비용 모델 및 캐시 교체 정책 개발.
GPU 비용 절감 가능성 제시.
한계점:
논문에서 구체적인 실험 결과 및 성능 향상 정도가 명시되지 않음 (추론 가능).
제안된 기술의 실질적인 구현 및 적용에 대한 세부 정보 부족.
다른 LLM 추론 시스템과의 비교 분석 부족 (추론 가능).
👍