# Mixture of Heterogeneous Grouped Experts for Language Modeling

### 저자

Zhicheng Ma, Xiang Liu, Zhaoxiang Liu, Ning Wang, Yi Shen, Kai Wang, Shuming Shi, Shiguo Lian

### 💡 개요

본 논문은 기존 Mixture-of-Experts (MoE) 모델의 고정된 전문가 크기에서 발생하는 비효율성을 해결하기 위해, 전문가 그룹화와 이중 라우팅 메커니즘을 도입한 Mixture of Heterogeneous Grouped Experts (MoHGE)를 제안합니다. MoHGE는 토큰 복잡성에 따른 자원 사용을 최적화하고 GPU 부하를 분산하여, 이론적 이종성을 실제 산업 적용 가능성으로 연결하는 것을 목표로 합니다. 이를 통해 기존 MoE 모델과 동등한 성능을 유지하면서 총 파라미터 수를 약 20% 감소시키는 성과를 달성했습니다.

### 🔑 시사점 및 한계

- **자원 효율적인 MoE 설계 패러다임 제시**: MoHGE는 전문가 그룹화 및 동적 라우팅을 통해 연산 비용과 토큰 복잡성을 효과적으로 일치시켜, 기존 MoE 모델의 성능을 유지하면서도 파라미터 효율성을 크게 향상시켰습니다.

- **실질적인 배포 및 추론 최적화**: 그룹별 보조 손실 함수와 그룹 분리 할당 전략을 통해 GPU 부하를 고르게 분산시키고, 추론 효율성을 높여 실제 산업 환경에서의 적용 가능성을 높였습니다.

- **데이터 및 작업 특성에 따른 추가 최적화 필요**: 제안된 방법론이 다양한 데이터셋과 작업 특성 전반에 걸쳐 얼마나 견고하게 성능을 유지하는지에 대한 추가적인 연구가 필요할 수 있습니다.

[PDF 보기](https://arxiv.org/pdf/2604.23108)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).
