Sign In

Union of Experts: Adapting Hierarchical Routing to Equivalently Decomposed Transformer

Created by
  • Haebom
Category
Empty

저자

Yujiao Yang, Jing Lian, Linhui Li

개요

본 논문은 대규모 애플리케이션에 적합한 Mixture-of-Experts (MoE)의 계산 효율성을 유지하면서 성능을 향상시키는 방법을 제시합니다. 기존 MoE의 한계점인 개별적으로 작동하는 전문가들 간의 상호작용 부족과 어텐션 블록으로의 효과적인 확장 부재를 해결하기 위해, Transformer를 동등한 전문가 그룹으로 분해하고 입력 데이터 및 전문가에 대한 동적 라우팅을 구현하는 Union-of-Experts (UoE)를 제안합니다. 텐서 병렬 처리 기반의 행렬 분할을 통해 MLP 블록과 어텐션 블록 모두에 대한 균등한 전문가 분해, 패치 단위 데이터 선택 및 전문가 선택을 포함하는 두 가지 라우팅 패러다임, 선택적 다중 헤드 어텐션(SMHA) 및 Union-of-MLP-Experts (UoME)를 포함하는 UoE 모델 아키텍처 설계, UoE의 라우팅 및 계산 연산의 병렬 구현 및 하드웨어 처리 분석 기반의 효율성 최적화 등 세 가지 핵심 혁신을 통해 MoE 설계를 발전시켰습니다. 실험 결과, UoE를 사용한 모델은 이미지 및 자연어 처리 분야의 여러 작업에서 Full Attention, 최첨단 MoE 및 효율적인 Transformer를 능가하는 것으로 나타났습니다. 소스 코드는 https://github.com/YujiaoYang-work/UoE 에서 확인할 수 있습니다.

시사점, 한계점

시사점:
기존 MoE의 한계점인 전문가 간 상호작용 부족 및 어텐션 블록 확장 문제를 효과적으로 해결했습니다.
텐서 병렬 처리 기반의 효율적인 전문가 분해 및 라우팅 전략을 제시했습니다.
이미지 및 자연어 처리 분야에서 기존 방법보다 우수한 성능을 달성했습니다.
UoE 모델의 소스 코드를 공개하여 재현성 및 확장성을 높였습니다.
한계점:
제안된 UoE 모델의 성능 향상이 특정 데이터셋 및 작업에 국한될 가능성이 있습니다.
더욱 다양한 규모의 데이터셋과 작업에 대한 추가적인 실험이 필요합니다.
UoE 모델의 복잡성과 구현의 어려움에 대한 논의가 부족합니다.
하드웨어 의존성에 대한 자세한 분석이 필요할 수 있습니다.
👍