[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Local Representative Token Guided Merging for Text-to-Image Generation

Created by
  • Haebom

저자

Min-Jeong Lee, Hee-Dong Kim, Seong-Whan Lee

개요

본 논문은 텍스트 기반 이미지 생성 모델인 Stable Diffusion의 속도 향상을 위한 새로운 토큰 병합 전략인 ReToM(local representative token guided merging)을 제안합니다. 기존 토큰 병합 방법들이 어텐션 연산의 계산 복잡도를 줄이는 데 집중했지만 이미지 생성 모델의 특성을 고려하지 못한 한계를 극복하기 위해, ReToM은 어텐션 입력 내의 윈도우를 기반으로 지역적 경계를 정의하고 윈도우 크기를 조정하여 다양한 문맥 정보를 바탕으로 토큰을 병합합니다. 또한, 특정 시간 단계에서 유사도를 계산하여 각 윈도우에서 가장 대표적인 토큰을 선택하는 대표 토큰을 도입하여 계산 오버헤드를 최소화하면서 가장 중요한 지역적 특징을 유지합니다. 실험 결과, ReToM은 기준 모델에 비해 FID를 6.2% 향상시키고 CLIP 점수를 높이는 동시에 유사한 추론 시간을 유지함을 보여줍니다. 이는 시각적 품질과 계산 효율성 간의 균형을 효과적으로 맞추는 것을 실증적으로 보여줍니다.

시사점, 한계점

시사점:
Stable Diffusion과 같은 어텐션 기반 이미지 생성 모델의 속도 향상에 기여하는 새로운 토큰 병합 전략 ReToM을 제시.
FID 및 CLIP 점수 향상을 통해 이미지 품질 개선을 확인.
계산 효율성과 이미지 품질 간의 균형을 효과적으로 달성.
다양한 어텐션 메커니즘에 적용 가능한 일반적인 방법론 제시.
한계점:
ReToM의 성능 향상이 특정 데이터셋이나 모델에 국한될 가능성.
윈도우 크기 조정 및 대표 토큰 선택에 대한 최적화 전략이 추가적인 연구가 필요할 수 있음.
다른 토큰 병합 방법들과의 더욱 포괄적인 비교 분석 필요.
👍