Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Serving Heterogeneous LoRA Adapters in Distributed LLM Inference Systems

Created by
  • Haebom
Category
Empty

저자

Shashwat Jaiswal, Shrikara Arun, Anjaly Parayil, Ankur Mallick, Spyros Mastorakis, Alind Khare, Chloi Alverti, Renee St Amant, Chetan Bansal, Victor Ruhle, Josep Torrellas

개요

LoRA는 대규모 언어 모델(LLM)의 효율적인 파인 튜닝 방법으로, 다양한 도메인에 빠르게 적응할 수 있게 해준다. LoRA 기반 모델은 여러 어댑터가 기본 모델을 공유하는 다중 테넌트 환경에서 대규모로 서비스되지만, 기존 시스템은 랭크(크기) 변화를 고려하지 않고 이종 어댑터를 함께 배치하여 성능 편차를 발생시킨다. 이는 SLO(Service-Level Objectives)를 충족하기 위해 더 많은 GPU를 추가해야 하는 결과를 초래한다. LoRAServe는 LoRA 서빙에서 랭크 다양성을 제어하기 위해 설계된 작업 부하 인식 동적 어댑터 배치 및 라우팅 프레임워크이다. GPU 간의 동적 어댑터 재분배 및 GPU Direct RDMA를 활용하여 처리량을 최대화하고 실제 작업 부하 변화에 따른 tail latency를 최소화한다. Company X의 실제 프로덕션 트레이스를 기반으로 한 평가에서 LoRAServe는 기존 시스템에 비해 최대 2배 높은 처리량, 최대 9배 낮은 TTFT를 보이며 SLO 제약 조건 하에서 최대 50% 적은 GPU를 사용한다.

시사점, 한계점

시사점:
LoRA 기반 LLM 서빙 환경에서 랭크 다양성으로 인한 성능 저하 문제를 해결하기 위한 새로운 프레임워크 제시.
동적 어댑터 배치 및 GPU Direct RDMA를 통해 처리량 및 tail latency 향상.
실제 프로덕션 트레이스를 활용한 성능 평가를 통해 우수성 입증.
한계점:
구체적인 구현 세부 사항 및 알고리즘에 대한 설명 부족.
다른 종류의 파라미터 효율적 튜닝 기법(예: Prefix-tuning)에 대한 비교 분석 부재.
다양한 하드웨어 환경에서의 성능 평가 부재.
👍