Expert Race: A Flexible Routing Strategy for Scaling Diffusion Transformer with Mixture of Experts
Created by
Haebom
저자
Yike Yuan, Ziyu Wang, Zihao Huang, Defa Zhu, Xun Zhou, Jingyi Yu, Qiyang Min
개요
본 논문은 확산 확률 모델(Diffusion Models)의 확장성과 성능 향상을 위해 전문가 혼합(Mixture of Experts, MoE) 방법을 통합한 새로운 모델인 Race-DiT를 제안합니다. Race-DiT는 유연한 라우팅 전략인 Expert Race를 통해 토큰과 전문가 간의 경쟁을 유도하여 중요한 토큰에 전문가를 동적으로 할당합니다. 또한, 얕은 레이어 학습의 어려움을 해결하기 위한 레이어별 정규화와 모드 붕괴를 방지하기 위한 라우터 유사성 손실을 제안합니다. ImageNet을 이용한 실험 결과, Race-DiT는 성능 향상과 확장성을 모두 보여줍니다.
시사점, 한계점
•
시사점:
◦
확산 트랜스포머 모델의 확장성 및 성능 향상에 대한 새로운 접근 방식 제시
◦
Expert Race 라우팅 전략을 통해 중요 토큰에 효율적으로 전문가 할당
◦
레이어별 정규화 및 라우터 유사성 손실을 통한 모델 안정성 및 성능 개선
◦
ImageNet 실험을 통해 Race-DiT의 효과성 및 확장성 검증
•
한계점:
◦
제안된 방법의 다른 이미지 데이터셋이나 다른 비전 작업에 대한 일반화 성능에 대한 추가 연구 필요