본 논문은 인터넷 서비스의 급속한 성장에 따라 중요해진 실시간 추천 시스템의 추론 지연 시간 감소 및 시스템 처리량 증가를 위한 모델 및 시스템 수준의 가속화 및 최적화 전략을 제안한다. 경량 네트워크 설계, 구조적 가지치기, 가중치 양자화와 같은 모델 수준의 최적화를 통해 모델의 매개변수 수와 계산 요구 사항을 크게 줄이고, 이기종 컴퓨팅 플랫폼 통합, 고성능 추론 라이브러리 활용, 실시간 부하 특성 기반의 탄력적 추론 스케줄링 및 부하 분산 메커니즘을 통해 시스템 수준의 성능을 향상시킨다. 실험 결과, 기존 추천 정확도를 유지하면서 지연 시간을 기준 대비 30% 미만으로 단축하고 시스템 처리량을 두 배 이상 증가시키는 실용적인 솔루션을 제시한다.