본 논문은 혼합 전문가(MoE) 아키텍처를 자동 음성 인식(ASR)에 적용하는 연구입니다. 기존 MoE 모델(예: Switch Transformer)은 각 계층 내에서 전문가를 독립적으로 라우팅하는 반면, 본 논문에서는 여러 MoE 계층에서 공유 라우터를 사용하는 Omni-router Transformer를 제안합니다. 이를 통해 서로 다른 계층의 전문가 간 협력을 증진시키고 전문화를 유도하여 성능 향상을 도모합니다. 대규모 의사 라벨링 데이터셋과 10개의 다양한 외부 도메인 ASR 벤치마크를 사용한 실험 결과, Omni-router Transformer는 기존의 밀집 모델 및 Switch Transformer 모델보다 낮은 훈련 손실을 달성하고 평균 단어 오류율을 각각 11.2% 및 8.2% 감소시키는 우수한 성능을 보였습니다.