DiffMoE: Dynamic Token Selection for Scalable Diffusion Transformers
Created by
Haebom
Category
Empty
저자
Minglei Shi, Ziyang Yuan, Haotian Yang, Xintao Wang, Mingwu Zheng, Xin Tao, Wenliang Zhao, Wenzhao Zheng, Jie Zhou, Jiwen Lu, Pengfei Wan, Di Zhang, Kun Gai
개요
본 논문에서는 확산 모델의 성능 향상을 위해 입력의 다양한 조건과 노이즈 수준에 대한 불균일한 처리 문제를 해결하는 새로운 방법인 DiffMoE를 제안합니다. DiffMoE는 배치 수준의 글로벌 토큰 풀을 도입하여 전문가들이 훈련 중 글로벌 토큰 분포에 접근할 수 있도록 하여 전문화된 전문가 행동을 촉진합니다. 또한, 노이즈 수준과 샘플 복잡도에 따라 계산 자원을 동적으로 할당하는 용량 예측기를 통합하여 확산 프로세스의 잠재력을 최대한 활용합니다. ImageNet 벤치마크에서 기존의 MoE 접근 방식과 3배 활성화 매개변수를 가진 밀집 아키텍처를 크게 능가하면서 1배 활성화 매개변수를 유지하면서 최첨단 성능을 달성합니다. 이 방법의 효과는 클래스 조건부 생성을 넘어 텍스트-이미지 생성과 같은 더 어려운 작업으로 확장되어 다양한 확산 모델 응용 프로그램에서의 광범위한 적용 가능성을 보여줍니다.
시사점, 한계점
•
시사점:
◦
확산 모델의 성능 향상을 위한 새로운 접근 방식인 DiffMoE 제시.
◦
배치 수준 글로벌 토큰 풀과 용량 예측기를 활용하여 효율적인 계산 자원 할당 및 전문화된 전문가 행동 촉진.
◦
ImageNet 벤치마크에서 기존 모델 대비 우수한 성능 달성 (3배 활성화 매개변수의 밀집 아키텍처 및 기존 MoE 접근 방식 능가).
◦
클래스 조건부 생성 뿐 아니라 텍스트-이미지 생성 등 다양한 작업에 적용 가능성을 보임.
•
한계점:
◦
본 논문에서 제시된 한계점에 대한 구체적인 언급이 부족합니다. 추가적인 실험이나 분석을 통해 한계점을 더 명확히 밝힐 필요가 있습니다.