Cet article présente une méthode permettant d'exploiter les stratégies de déchargement mémoire afin de pallier les limitations d'évolutivité du traitement parallèle en pipeline (PP), largement utilisé pour l'apprentissage de modèles de langage à grande échelle (LLM). Les résultats expérimentaux montrent qu'au moins la moitié, voire la totalité, des activations peuvent être déchargées avec une surcharge négligeable dans la plupart des configurations standard. Dans les cas où un déchargement complet n'est pas possible, nous introduisons une nouvelle stratégie de déchargement sélectif qui réduit la mémoire d'activation maximale plus efficacement que linéairement. De plus, nous intégrons le déchargement mémoire à d'autres techniques afin de prendre en compte à la fois le débit global et les contraintes mémoire. Les résultats expérimentaux montrent que PP est jusqu'à 19 % plus rapide que TP et consomme moins de mémoire, réduisant ainsi efficacement la mémoire d'activation par périphérique à mesure que le nombre d'étapes augmente. Le code d'implémentation est fourni en open source.