MoE-MLA-RoPE는 Mixture of Experts (MoE), Multi-head Latent Attention (MLA), Rotary Position Embeddings (RoPE)를 결합한 효율적인 언어 모델 아키텍처입니다. 세 가지 핵심 혁신 (1) 64개의 마이크로 전문가와 top-$k$ 선택을 이용한 세분화된 전문가 라우팅 (2) 일반적인 패턴에 대해 항상 활성화되는 2개의 전문가와 62개의 특수화된 전문가 중 6개로 라우팅하는 공유 전문가 분리 (3) 주 손실 최적화에 영향을 미치지 않고 전문가 활용도를 유지하는 기울기 충돌 없는 부하 분산을 통해 모델 용량과 계산 효율성 간의 기본적인 트레이드오프를 해결합니다. 17M에서 202M 매개변수에 이르는 모델에 대한 광범위한 실험 결과, 압축 비율 r=d/2인 MoE-MLA-RoPE는 경쟁력 있는 perplexity (0.8% 저하)를 유지하면서 KV 캐시 메모리 사용량을 68% 줄이고 추론 속도를 3.2배 향상시킵니다. 53.9M 매개변수 모델과 비교했을 때, MoE-MLA-RoPE는 순방향 패스당 활성 매개변수를 42% 줄이면서 검증 손실을 6.9% 개선합니다. FLOP 매칭 실험에서는 더 큰 이점 (11.1% 개선, 추론 속도 3.2배 향상)을 보여줍니다. GPT-4를 사용한 자동 평가는 일관성(8.1/10), 창의성(7.9/10), 문법적 정확성(8.2/10)에서 더 높은 점수를 얻어 생성 품질 향상을 확인했습니다. 이 연구 결과는 자원 제약이 있는 언어 모델 배포에 있어 효율성 한계가 매개변수 확장이 아닌 아키텍처의 혁신에 의해 결정됨을 보여줍니다.