대규모 언어 모델(LLM) 어댑터의 빠른 채택에 따라, 단일 GPU에서 수백 또는 수천 개의 어댑터를 서비스하는 것이 일반화되었지만, GPU 메모리 제한 초과 시 요청 기아 현상이 발생할 수 있다. 이 연구는 이 문제를 해결하기 위해, 서로 다른 어댑터 및 트래픽 특성을 고려하여, 요청 기아를 유발하지 않으면서 GPU 처리량을 최대화하는 동시 및 병렬 어댑터의 조합을 결정하는 데 초점을 맞춘다. 해석 가능한 모델을 활용하는 데이터 기반 ML 접근 방식을 제안하고, LLM 어댑터 서비스 시스템을 재현할 수 있는 최초의 디지털 트윈을 도입하여 효율적인 학습 데이터 생성을 가능하게 한다. vLLM 프레임워크 및 LoRA 어댑터를 사용한 실험에서 디지털 트윈은 실제 결과의 5.1% 이내로 처리량을 재현했으며, ML 접근 방식은 서로 다른 실제 작업 부하에서 최대 7.2%의 오차로 동시 및 병렬 어댑터의 최적 수를 예측했다.