본 논문은 확산 모델에서 트랜스포머의 이차적 어텐션 복잡도로 인한 확장성 한계를 해결하기 위해, 토큰 축소 기법을 GPU 친화적으로 개선한 ToMA (Token Merge with Attention)를 제안합니다. ToMA는 토큰 병합을 하위모듈 최적화 문제로 재구성하여 다양한 토큰을 선택하고, 병합/분할을 GPU 친화적인 행렬 연산을 통한 어텐션 유사 선형 변환으로 수행하며, 잠재적 지역성과 순차적 중복성을 활용하여 오버헤드를 최소화합니다. 실험 결과, ToMA는 SDXL 및 Flux 모델의 생성 지연 시간을 각각 24%, 23% 단축시키면서 이미지 품질 저하를 최소화함을 보여줍니다. 기존 토큰 축소 방법들의 GPU 비효율적인 연산으로 인한 속도 향상 저하 문제를 해결하여, 이론적 효율성과 실제 효율성 간의 차이를 줄였습니다.