희소 자동 인코더(SAE)는 대규모 언어 모델(LLM)의 토큰 활성화를 인간이 이해할 수 있는 특징의 조합으로 분해하여 LLM을 해석하는 강력한 도구로 부상했습니다. SAE는 LLM 설명에 대한 중요한 통찰력을 제공하지만, 더 나은 해석 가능성은 희소성 제약을 충족하기 위해 SAE의 숨겨진 계층이 높은 차원을 가져야 한다는 것을 요구하며, 이로 인해 과도한 훈련 및 추론 비용이 발생합니다. 최근 Mixture of Experts(MoE) 접근 방식은 게이티드 활성화를 통해 SAE를 더 좁은 전문가 네트워크로 분할하여 계산을 줄임으로써 이 문제를 해결하려고 시도합니다. 잘 설계된 MoE에서 각 전문가는 뚜렷한 특징 집합을 학습하는 데 집중해야 합니다. 그러나 MoE-SAE의 중요한 한계점을 발견했습니다. 전문가들은 종종 특화에 실패하여 중복되거나 동일한 특징을 빈번하게 학습합니다. 이를 해결하기 위해 (1) 의미론적으로 가중된 전문가 하위 집합을 동시에 참여시켜 특화를 장려하는 Multiple Expert Activation과 (2) 적응형 고주파 스케일링을 통해 다양성을 향상시키는 Feature Scaling이라는 두 가지 주요 혁신을 제안합니다. 실험 결과 기존 MoE-SAE 방법과 비교하여 24% 낮은 재구성 오류와 99%의 특징 중복 감소를 보여줍니다. 이 연구는 LLM 분석의 해석 가능성-효율성 격차를 해결하여 계산 가능성을 훼손하지 않으면서 투명한 모델 검사를 가능하게 합니다.