Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

ToMA: Token Merge with Attention for Diffusion Models

Created by
  • Haebom

저자

Wenbo Lu, Shaoyi Zheng, Yuxuan Xia, Shengjie Wang

개요

본 논문은 확산 모델에서 트랜스포머의 이차적 어텐션 복잡도로 인한 확장성 한계를 해결하기 위해, 토큰 축소 기법을 GPU 친화적으로 개선한 ToMA (Token Merge with Attention)를 제안합니다. ToMA는 토큰 병합을 하위모듈 최적화 문제로 재구성하여 다양한 토큰을 선택하고, 병합/분할을 GPU 친화적인 행렬 연산을 통한 어텐션 유사 선형 변환으로 수행하며, 잠재적 지역성과 순차적 중복성을 활용하여 오버헤드를 최소화합니다. 실험 결과, ToMA는 SDXL 및 Flux 모델의 생성 지연 시간을 각각 24%, 23% 단축시키면서 이미지 품질 저하를 최소화함을 보여줍니다. 기존 토큰 축소 방법들의 GPU 비효율적인 연산으로 인한 속도 향상 저하 문제를 해결하여, 이론적 효율성과 실제 효율성 간의 차이를 줄였습니다.

시사점, 한계점

시사점:
GPU 친화적인 토큰 축소 기법을 통해 확산 모델의 확장성 한계를 극복하는 새로운 방법 제시.
기존 방법들의 GPU 비효율성 문제 해결 및 실질적인 속도 향상 달성.
SDXL 및 Flux 모델에서의 실험을 통해 성능 향상을 검증.
트랜스포머 기반 확산 모델의 효율성 향상에 대한 새로운 방향 제시.
한계점:
ToMA의 성능 향상은 특정 모델(SDXL, Flux)에 대한 실험 결과에 기반하며, 다른 모델에 대한 일반화 가능성은 추가 연구가 필요.
하위모듈 최적화 문제의 해결 방식 및 매개변수 설정에 대한 추가적인 분석이 필요할 수 있음.
다양한 하드웨어 환경에서의 성능 평가가 부족.
👍