본 논문은 대규모 언어 모델(LLM)의 추론 비용을 줄이기 위한 새로운 프레임워크인 Decomposition of Experts (DoE)를 제안합니다. DoE는 특정 작업에 중요한 역할을 하는 뉴런들을 '전문가(expert)'로 정의하고, 작업별로 해당 전문가들을 동적으로 식별하여 활성화함으로써 추론 속도를 높입니다. 사용자 요청을 받으면, DoE는 해당 작업의 전문가를 찾아 해당 전문가만을 사용하여 추론을 수행하고, 작업이 끝나면 원래 모델로 복원하는 네 단계 과정을 거칩니다. 실험 결과, DoE는 최대 1.73배의 추론 속도 향상과 65%의 파라미터 감소를 달성하면서 정확도를 유지하는 것을 보여줍니다. 다양한 전문가 식별 방법과의 비교, ablation study를 통해 DoE의 효과성과 구성 요소들의 중요성을 검증하였으며, 배치 크기, 토큰 수, 레이어 유형 등이 추론 속도 향상에 미치는 영향도 분석했습니다. DoE는 Transformer 기반 아키텍처에 적용 가능하며 확장성이 뛰어난 실용적인 프레임워크입니다.