본 논문은 대규모 애플리케이션에 적합한 계산 효율성을 유지하면서 모델 성능을 향상시키는 전문가 혼합(MoE) 모델의 한계를 극복하기 위해 전문가 연합(UoE) 모델을 제안합니다. 기존 MoE 모델의 서브옵티멀한 조정 역학 및 과적합 위험을 해결하고, 어텐션 블록으로의 효과적인 확장을 제한하는 문제점을 해결하기 위해, UoE는 트랜스포머 모델을 기능적으로 동등한 전문가 그룹으로 분해하고 계층적 라우팅 메커니즘을 적용하여 입력 부분 공간을 전문화된 전문가에게 할당합니다. 이를 위해 전문가 그룹 구성, 계층적 라우팅 패러다임 개발, 어텐션 블록으로의 MoE 설계 확장, 하드웨어 최적화 병렬화 기법 등 네 가지 핵심 혁신을 제시합니다. 실험 결과, UoE 모델은 이미지 및 자연어 처리 작업에서 Full Attention, 최첨단 MoE 및 효율적인 트랜스포머 모델을 능가하는 성능을 보여줍니다. 특히 언어 모델링 작업에서는 최고 성능 MoE 모델 대비 2.38의 perplexity 감소를 달성했으며, Long Range Arena 벤치마크에서는 비교 모델보다 평균 0.68% 이상 높은 점수를 기록했습니다. 이미지 분류에서는 최고 성능 모델보다 평균 1.75% 향상된 정확도를 달성했습니다.