본 논문은 텍스트 기반 이미지 생성 모델인 Stable Diffusion의 속도 향상을 위한 새로운 토큰 병합 전략인 ReToM(local representative token guided merging)을 제안합니다. 기존 토큰 병합 방법들이 어텐션 연산의 계산 복잡도를 줄이는 데 집중했지만 이미지 생성 모델의 특성을 고려하지 못한 한계를 극복하기 위해, ReToM은 어텐션 입력 내의 윈도우를 기반으로 지역적 경계를 정의하고 윈도우 크기를 조정하여 다양한 문맥 정보를 바탕으로 토큰을 병합합니다. 또한, 특정 시간 단계에서 유사도를 계산하여 각 윈도우에서 가장 대표적인 토큰을 선택하는 대표 토큰을 도입하여 계산 오버헤드를 최소화하면서 가장 중요한 지역적 특징을 유지합니다. 실험 결과, ReToM은 기준 모델에 비해 FID를 6.2% 향상시키고 CLIP 점수를 높이는 동시에 유사한 추론 시간을 유지함을 보여줍니다. 이는 시각적 품질과 계산 효율성 간의 균형을 효과적으로 맞추는 것을 실증적으로 보여줍니다.