본 논문은 엣지 인퍼런스에서의 높은 처리량 달성과 엄격한 지연 시간 요구 사항을 충족하는 문제를 해결하기 위해, 다중 사용자 엣지 인퍼런스를 위한 매개변수 공유 AI 모델 로딩 프레임워크인 PartialLoading을 제안한다. 이는 AI 모델 로딩 시간이 지연의 주요 원인이며, 서로 다른 AI 모델들이 상당한 매개변수를 공유할 수 있다는 두 가지 통찰력에 기반한다. PartialLoading은 공유 매개변수 블록을 활용하여 작업 처리량을 극대화하기 위해 다중 사용자 스케줄링 및 스펙트럼 대역폭 할당 문제를 공동으로 공식화한다. 연속적으로 로드되는 모델 간의 공유 매개변수 블록을 재사용하여 모델 로딩 시간을 크게 줄이는 것을 목표로 한다. 문제 해결을 위해 사용자 스케줄링과 대역폭 할당으로 문제를 분리하여 순차적으로 해결하는 것이 원래 문제를 해결하는 것과 동일함을 보인다. NP-hard 문제이므로, 먼저 AI 모델들이 클러스터 내에서 하위 계층을 공유하는 "bottom-layer-sharing" 특수 사례를 연구하여 다이나믹 프로그래밍 기반 알고리즘을 설계하여 다항 시간 내에 최적의 해를 얻는다. 일반적인 경우에는 탐욕적 휴리스틱을 제안하여 효율적으로 준 최적의 해를 얻는다. 시뮬레이션 결과는 제안된 프레임워크가 매개변수 공유를 활용하지 않는 사용자 스케줄링과 비교하여 마감 시간 제약 조건 하에서 작업 처리량을 크게 향상시킨다는 것을 보여준다.