Dans cet article, nous proposons un framework distribué d'encodage-préremplissage-décodage (EPD) pour résoudre le problème de dégradation des performances des modèles multimodaux à grande échelle (LMM). Les LMM traitent diverses entrées telles que des images, des fichiers audio et des vidéos, mais leurs étapes d'encodage multimodal entraînent une surcharge de calcul et de mémoire accrue, ce qui dégrade les objectifs de niveau de service (SLO) clés, tels que le temps de réponse. Le framework distribué EPD résout ces problèmes en séparant les étapes d'encodage, de préremplissage et de décodage en ressources dédiées. Grâce à la mise en cache des jetons multimédias, à la parallélisation de la charge d'encodage, à un module d'allocation optimale des ressources et à un mécanisme de changement de rôle, il améliore considérablement l'efficacité mémoire, la taille des lots, le nombre d'images par requête et la taille du cache KV, améliorant ainsi le taux d'atteinte des SLO et le temps de réponse.