본 논문은 계산 효율성을 높이면서 모델 확장성을 유지하기 위해 Transformer로 증강된 구획별 전문가 혼합(MoE) 아키텍처에 대한 이론적 프레임워크를 제시합니다. 기존 MoE 모델과 달리 전체 토큰 임베딩을 선택된 전문가에게 라우팅하는 대신, 각 토큰 표현의 임베딩 차원 자체를 구획으로 나누어 전문가에게 할당합니다. 토큰 표현의 손실을 해결하기 위해 전문가 전 Transformer 계층을 사용하여 토큰 간의 어텐션을 재계산하고 시퀀스 길이 차원을 줄입니다. 전문가 수와 모델 차원, 시퀀스 길이, 시스템 오버헤드와 같은 요소 간의 비선형 관계를 나타내는 최적의 확장 법칙을 유도하여 이론을 확장합니다. 이러한 공식은 주어진 아키텍처 및 하드웨어 제약 조건 하에서 최적의 전문가 수를 식별하기 위한 폐쇄형 및 수치적으로 풀 수 있는 표현식을 제공합니다. 결과적으로, 본 프레임워크는 다양한 프레임워크를 사용한 계산 효율성에 대한 이론적 경계를 제공할 뿐만 아니라 대규모 모델을 효과적으로 확장하기 위한 실용적인 설계 선택을 안내합니다. 실험적 검증은 보류 중이지만, 향후 연구에서 프레임워크의 효율성, 확장성 및 실용성을 평가하기 위한 포괄적인 실험 로드맵을 제시합니다.