Loquetier는 LoRA 기반 모델의 미세 조정과 추론을 단일 런타임 내에서 통합하는 가상화된 multi-LoRA 프레임워크입니다. 이는 (1) PEFT 기반 수정을 격리하고 공유 기본 모델에서 여러 어댑터를 지원하는 Virtualized Module과 (2) 순방향 전파에서 미세 조정 및 추론 경로를 병합하여 효율적인 배치 처리와 커널 호출 오버헤드를 최소화하는 최적화된 계산 흐름을 포함합니다. 다양한 실험을 통해 Loquetier는 기존 벤치마크보다 성능과 유연성 측면에서 우수한 결과를 보였으며, 추론 전용 작업에서 기존 co-serving 시스템보다 최대 3.0배의 처리량을, 통합된 미세 조정 및 추론 작업에서 PEFT보다 46.4배 높은 SLO 달성률을 기록했습니다.