Dans cet article, nous proposons une nouvelle stratégie de fusion de jetons, ReToM (fusion guidée par jetons représentatifs locaux), afin d'améliorer la vitesse de Stable Diffusion, un modèle de génération d'images textuelles. Si les méthodes de fusion de jetons existantes se concentrent sur la réduction de la complexité de calcul des opérations d'attention, elles ne prennent pas en compte les caractéristiques des modèles de génération d'images. Pour surmonter cette limitation, ReToM définit des limites locales en fonction des fenêtres d'entrée d'attention et ajuste la taille de la fenêtre pour fusionner les jetons en fonction de diverses informations contextuelles. De plus, nous introduisons un jeton représentatif qui sélectionne le jeton le plus représentatif dans chaque fenêtre en calculant la similarité à un pas de temps spécifique, minimisant ainsi la charge de calcul tout en préservant les caractéristiques locales les plus importantes. Les résultats expérimentaux montrent que ReToM améliore le FID de 6,2 % et augmente le score CLIP par rapport au modèle de base, tout en maintenant un temps d'inférence similaire. Cela démontre empiriquement qu'il équilibre efficacement qualité visuelle et efficacité de calcul.