Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

A Data-driven ML Approach for Maximizing Performance in LLM-Adapter Serving

Created by
  • Haebom
Category
Empty

저자

Ferran Agullo, Joan Oliveras, Chen Wang, Alberto Gutierrez-Torre, Olivier Tardieu, Alaa Youssef, Jordi Torres, Josep Ll. Berral

개요

대규모 언어 모델(LLM) 어댑터의 빠른 채택에 따라, 단일 GPU에서 수백 또는 수천 개의 어댑터를 서비스하는 것이 일반화되었지만, GPU 메모리 제한 초과 시 요청 기아 현상이 발생할 수 있다. 이 연구는 이 문제를 해결하기 위해, 서로 다른 어댑터 및 트래픽 특성을 고려하여, 요청 기아를 유발하지 않으면서 GPU 처리량을 최대화하는 동시 및 병렬 어댑터의 조합을 결정하는 데 초점을 맞춘다. 해석 가능한 모델을 활용하는 데이터 기반 ML 접근 방식을 제안하고, LLM 어댑터 서비스 시스템을 재현할 수 있는 최초의 디지털 트윈을 도입하여 효율적인 학습 데이터 생성을 가능하게 한다. vLLM 프레임워크 및 LoRA 어댑터를 사용한 실험에서 디지털 트윈은 실제 결과의 5.1% 이내로 처리량을 재현했으며, ML 접근 방식은 서로 다른 실제 작업 부하에서 최대 7.2%의 오차로 동시 및 병렬 어댑터의 최적 수를 예측했다.

시사점, 한계점

시사점:
LLM 어댑터 서비스 시스템의 GPU 처리량 최적화를 위한 데이터 기반 ML 접근 방식 제시
LLM 어댑터 서비스 시스템의 효율적인 훈련 데이터 생성을 위한 디지털 트윈 도입
실제 환경에서 제안된 방법의 유효성 검증 (vLLM, LoRA 어댑터 사용)
최적의 어댑터 설정을 위한 예측 정확도 확보
한계점:
특정 프레임워크(vLLM) 및 어댑터 유형(LoRA)에 대한 실험 결과
모델 일반화 가능성에 대한 추가 연구 필요
복잡한 시스템 환경에 대한 확장성 평가 필요
👍