Sign In

Union of Experts: Adapting Hierarchical Routing to Equivalently Decomposed Transformer

Created by
  • Haebom
Category
Empty

저자

Yujiao Yang, Jing Lian, Linhui Li

개요

본 논문은 Transformer를 여러 개의 동등한 전문가(expert)로 분해하고, 입력 데이터와 전문가 간의 선택적 라우팅을 구현하는 Union-of-Experts (UoE)를 제안합니다. UoE는 텐서 병렬 처리를 기반으로 MLP 블록과 어텐션 블록 모두에 동등한 전문가 분해를 수행하고, 패치 기반 데이터 선택 및 전문가 선택이라는 두 가지 라우팅 패러다임을 개발하여 다양한 수준에서 라우팅을 적용합니다. 또한, 선택적 다중 헤드 어텐션(SMHA)과 Union-of-MLP-Experts (UoME)를 포함하는 UoE 모델 아키텍처를 설계하고, 하드웨어 처리 분석을 기반으로 효율성을 최적화한 UoE의 라우팅 및 계산 연산의 병렬 구현을 개발했습니다. 실험 결과, UoE 모델은 이미지 및 자연어 처리 분야의 여러 작업에서 Full Attention, 최첨단 MoE 및 효율적인 Transformer(최근 제안된 DeepSeek-V3 모델 아키텍처 포함)를 능가하는 것으로 나타났습니다. 특히 언어 모델링 작업에서는 최고 성능의 MoE 방법보다 평균 2.38의 perplexity 감소를 달성했으며, FLOPs는 평균 76% 감소했습니다. Long Range Arena 벤치마크에서는 Full Attention, MoE 및 Transformer 변형을 포함한 모든 비교 모델보다 평균 0.68% 이상 높은 점수를 기록했으며, 최고 성능의 MoE 방법의 50% FLOPs만 사용했습니다. 이미지 분류에서는 비슷한 FLOPs를 유지하면서 최고 성능 모델보다 평균 1.75%의 정확도 향상을 달성했습니다. 소스 코드는 https://github.com/YujiaoYang-work/UoE 에서 확인할 수 있습니다.

시사점, 한계점

시사점:
기존 MoE 모델보다 효율적이고 성능이 우수한 UoE 모델을 제안.
다양한 자연어 및 이미지 처리 작업에서 성능 향상을 입증.
텐서 병렬 처리 기반의 효율적인 라우팅 및 계산 전략 제시.
개방형 소스 코드 제공을 통한 재현성 및 확장성 확보.
한계점:
특정 하드웨어 환경에 최적화되어 다른 환경에서는 성능 저하 가능성 존재.
대규모 모델의 경우 라우팅 및 전문가 관리의 복잡성 증가.
제안된 모델의 일반화 성능에 대한 추가적인 연구 필요.
다양한 데이터셋 및 작업에 대한 더욱 폭넓은 실험 필요.
👍