En este artículo, proponemos una novedosa estrategia de fusión de tokens, ReToM (fusión guiada de tokens representativos locales), para mejorar la velocidad de Stable Diffusion, un modelo de generación de imágenes basado en texto. Si bien los métodos de fusión de tokens existentes se centran en reducir la complejidad computacional de las operaciones de atención, no consideran las características de los modelos de generación de imágenes. Para superar esta limitación, ReToM define límites locales basados en ventanas en la entrada de atención y ajusta el tamaño de la ventana para fusionar tokens según diversa información contextual. Además, introducimos un token representativo que selecciona el token más representativo en cada ventana calculando la similitud en un paso de tiempo específico, minimizando así la sobrecarga computacional y preservando las características locales más importantes. Los resultados experimentales muestran que ReToM mejora la FID en un 6,2% y aumenta la puntuación CLIP en comparación con el modelo de referencia, manteniendo un tiempo de inferencia similar. Esto demuestra empíricamente que equilibra eficazmente la calidad visual y la eficiencia computacional.