본 논문은 대규모 언어 모델(LLM)의 온디바이스 추론 시 높은 메모리 요구량 문제를 해결하기 위해 FlexInfer라는 최적화된 오프로딩 프레임워크를 제안한다. FlexInfer는 비동기적 프리페칭, 균형 잡힌 메모리 잠금, 유연한 텐서 보존과 같은 기법을 통해 메모리 효율성을 높이고 I/O 병목 현상을 완화하여 사용자가 지정한 리소스 제약 내에서 높은 성능을 보장한다. 실험 결과, FlexInfer는 제한된 리소스 환경에서 기존 방법보다 최대 12.5배 향상된 처리량을 달성하여 리소스 제약이 있는 기기에서 대규모 모델 배포를 가능하게 한다.