본 논문은 대규모 언어 모델(LLM)의 내부 계산을 이해하고 원치 않는 행동(예: 유해 콘텐츠 생성)을 방지하기 위해, 다의성(polysemanticity) 문제를 해결하는 새로운 아키텍처인 Mixture of Monosemantic Experts for Transformers (Monet)을 제안합니다. Monet은 희소 사전 학습을 End-to-End Mixture-of-Experts 사전 학습에 직접 통합하여, 기존 Sparse Autoencoders(SAEs)의 성능 저하 문제를 해결합니다. 특히, 계층당 262,144개의 전문가를 확장하면서도 매개변수 수는 전문가 수의 제곱근에 비례하여 증가하는 새로운 전문가 분해 방법을 제시합니다. 실험 결과, 전문가 간 지식의 상호 배타성과 개별 전문가 내 지식을 보여주며, 일반적인 성능 저하 없이 도메인, 언어, 유해성 완화에 대한 지식 조작을 가능하게 합니다. 소스 코드와 사전 학습된 체크포인트는 GitHub에서 공개됩니다.