Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

TREAD: Token Routing for Efficient Architecture-agnostic Diffusion Training

Created by
  • Haebom
Category
Empty

저자

Felix Krause, Timy Phan, Ming Gui, Stefan Andreas Baumann, Vincent Tao Hu, Bjorn Ommer

개요

본 논문은 확산 모델의 훈련 효율성과 생성 성능을 동시에 향상시키는 새로운 방법인 TREAD를 제안합니다. TREAD는 모델의 초기 레이어에서 깊은 레이어로 무작위로 선택된 토큰을 전달하는 메커니즘을 통해 작동하며, 트랜스포머 기반 모델뿐 아니라 상태 공간 모델에도 적용 가능합니다. 추가적인 매개변수나 구조 변경 없이 ImageNet-256 벤치마크에서 계산 비용을 줄이고 생성 성능을 향상시키는 것을 보여줍니다. DiT와 비교하여 400K 훈련 반복에서 14배, 7M 훈련 반복에서 37배의 수렴 속도 향상을 달성했으며, 지도 학습 환경에서 2.09, 비지도 학습 환경에서 3.93의 FID 점수를 기록하여 기존 DiT보다 성능이 향상되었습니다.

시사점, 한계점

시사점:
확산 모델의 훈련 효율성과 생성 성능을 동시에 향상시키는 새로운 방법 제시.
모델 구조 변경이나 추가 매개변수 없이 효율성 향상 달성.
트랜스포머 기반 모델과 상태 공간 모델 모두에 적용 가능.
ImageNet-256 벤치마크에서 유의미한 성능 향상 및 수렴 속도 향상 확인.
한계점:
제시된 방법의 일반화 성능에 대한 추가적인 연구 필요.
다른 데이터셋이나 더 복잡한 모델에 대한 적용성 검증 필요.
TREAD 메커니즘의 작동 원리에 대한 더 자세한 분석 필요.
👍