본 논문은 Mixture-of-Experts (MoE) 기반 대규모 언어 모델(LLM)의 크기 증가로 인한 계산 및 메모리 문제 해결을 위해 활성화와 모델 파라미터 양쪽에 동시에 희소성을 적용하는 Samoyeds라는 가속 시스템을 제안합니다. Samoyeds는 MoE 계산에 맞춤화된 희소 데이터 형식과 특수한 희소-희소 행렬 곱셈 커널을 도입하고, Sparse Tensor Cores (SpTCs)에서 이중 측면 구조화된 희소 MoE LLM 실행을 위해 설계된 체계적인 최적화를 통합합니다. 실험 결과, Samoyeds는 기존 최고 성능(SOTA)을 커널 수준에서 최대 1.99배, 모델 수준에서 최대 1.58배 능가하며, 메모리 효율성을 높여 평균적으로 최대 지원 배치 크기를 4.41배 증가시키는 것으로 나타났습니다. 또한, 기존 SOTA 구조화된 희소 솔루션보다 모델 정확도와 하드웨어 이식성이 모두 우수합니다.