Union of Experts: Adapting Hierarchical Routing to Equivalently Decomposed Transformer
Created by
Haebom
Category
Empty
저자
Yujiao Yang, Jing Lian, Linhui Li
개요
본 논문은 대규모 애플리케이션에 적합한 Mixture-of-Experts (MoE)의 계산 효율성을 유지하면서 성능을 향상시키는 방법을 제시합니다. 기존 MoE의 한계점인 개별적으로 작동하는 전문가들 간의 상호작용 부족과 어텐션 블록으로의 효과적인 확장 부재를 해결하기 위해, Transformer를 동등한 전문가 그룹으로 분해하고 입력 데이터 및 전문가에 대한 동적 라우팅을 구현하는 Union-of-Experts (UoE)를 제안합니다. 텐서 병렬 처리 기반의 행렬 분할을 통해 MLP 블록과 어텐션 블록 모두에 대한 균등한 전문가 분해, 패치 단위 데이터 선택 및 전문가 선택을 포함하는 두 가지 라우팅 패러다임, 선택적 다중 헤드 어텐션(SMHA) 및 Union-of-MLP-Experts (UoME)를 포함하는 UoE 모델 아키텍처 설계, UoE의 라우팅 및 계산 연산의 병렬 구현 및 하드웨어 처리 분석 기반의 효율성 최적화 등 세 가지 핵심 혁신을 통해 MoE 설계를 발전시켰습니다. 실험 결과, UoE를 사용한 모델은 이미지 및 자연어 처리 분야의 여러 작업에서 Full Attention, 최첨단 MoE 및 효율적인 Transformer를 능가하는 것으로 나타났습니다. 소스 코드는 https://github.com/YujiaoYang-work/UoE 에서 확인할 수 있습니다.