Cet article propose des stratégies d'accélération et d'optimisation au niveau du modèle et du système afin de réduire la latence d'inférence et d'augmenter le débit des systèmes de recommandation en temps réel, devenus de plus en plus importants en raison de la croissance rapide des services Internet. Les optimisations au niveau du modèle, telles que la conception de réseaux légers, l'élagage structurel et la quantification des pondérations, réduisent considérablement le nombre de paramètres du modèle et les besoins de calcul. Les performances au niveau du système sont améliorées par l'intégration de plateformes de calcul hétérogènes, l'exploitation de bibliothèques d'inférence hautes performances et la mise en œuvre de mécanismes d'ordonnancement d'inférence élastique et d'équilibrage de charge basés sur les caractéristiques de charge en temps réel. Les résultats expérimentaux démontrent une solution pratique qui réduit la latence de moins de 30 % par rapport aux valeurs de référence et qui double largement le débit du système tout en maintenant la précision des recommandations de base.