Sign In

Loquetier: A Virtualized Multi-LoRA Framework for Unified LLM Fine-tuning and Serving

Created by
  • Haebom
Category
Empty

저자

Yuchen Zhang, Hanyue Du, Chun Cao, Jingwei Xu

개요

Loquetier는 LoRA 기반 모델의 미세 조정과 추론을 단일 런타임 내에서 통합하는 가상화된 multi-LoRA 프레임워크입니다. 이는 (1) PEFT 기반 수정을 격리하고 공유 기본 모델에서 여러 어댑터를 지원하는 Virtualized Module과 (2) 순방향 전파에서 미세 조정 및 추론 경로를 병합하여 효율적인 배치 처리와 커널 호출 오버헤드를 최소화하는 최적화된 계산 흐름을 포함합니다. 다양한 실험을 통해 Loquetier는 기존 벤치마크보다 성능과 유연성 측면에서 우수한 결과를 보였으며, 추론 전용 작업에서 기존 co-serving 시스템보다 최대 3.0배의 처리량을, 통합된 미세 조정 및 추론 작업에서 PEFT보다 46.4배 높은 SLO 달성률을 기록했습니다.

시사점, 한계점

LoRA 기반 모델의 미세 조정과 추론을 통합하는 새로운 프레임워크 제시
Virtualize Module과 최적화된 계산 흐름을 통해 성능 향상
기존 시스템 대비 높은 처리량과 SLO 달성률 기록
논문에서 한계점은 명시되지 않음
👍