본 논문은 대규모 언어 모델의 계산 비효율성 문제를 해결하기 위해, 추론 시 불필요한 파라미터를 선택적으로 비활성화하는 희소 활성화 방법을 제안합니다. 기존의 비선형 게이팅 메커니즘에 집중하는 방법들과 달리, 본 논문은 FFNN 레이어의 희소성이 내부 다운 프로젝션 매트릭스에 대한 선형 결합의 형태로 전역적으로 존재한다는 가설을 세웁니다. 이러한 통찰력을 바탕으로, 간접 계수를 활용하는 M-COUNTDOWN과 직접 계수를 활용하는 D-COUNTDOWN이라는 두 가지 방법을 제안합니다. 실험 결과, D-COUNTDOWN은 최대 90%의 계산을 생략하면서 성능 저하를 5.5% 수준으로 최소화할 수 있음을 보였고, M-COUNTDOWN은 기존 방법에 비해 최대 29.4% 향상된 성능 유지를 제공하는 예측기 없는 솔루션을 제공합니다. 특수화된 커널 구현을 통해 이론적 성과를 실제 가속으로 효과적으로 구현했습니다.