본 논문은 대규모 언어 모델(LLM)의 추론 비용을 줄이기 위한 새로운 방법인 CMoE(Clustering-based Mixture-of-Experts) 프레임워크를 제시합니다. 기존의 밀집형 LLM을 MoE(Mixture-of-Experts) 구조로 변환하는 기존 방법들은 많은 리소스를 필요로 하는 지속적인 사전 훈련이 필요하지만, CMoE는 사전 훈련 없이 FFN(Feed-Forward Network) 뉴런 활성화 분석을 통해 공유 전문가와 라우팅 전문가로 분할하여 빠르게 변환합니다. 균형 잡힌 할당 알고리즘을 사용하여 라우팅 뉴런을 클러스터링하고, 활성화 통계를 이용하여 미분 가능한 라우터를 분석적으로 구성합니다. 실험 결과, 활성화 비율 75%에서 퍼플렉서티 측면에서 손실 없는 정확도를 유지하면서 5%의 가속화를 달성하고, 25%의 매개변수만 활성화하는 경우에도 추가 훈련 없이 종단 간 지연 시간을 1.5배 줄이면서 사용 가능한 퍼플렉서티를 유지하는 것을 보여줍니다. 또한, 간단한 LoRA 미세 조정으로 밀집 모델의 다운스트림 정확도의 76% 이상을 회복할 수 있습니다.
시사점, 한계점
•
시사점:
◦
기존의 MoE 변환 방식보다 훨씬 효율적으로 대규모 언어 모델을 MoE 구조로 변환할 수 있습니다.
◦
사전 훈련 없이도 밀집 모델의 성능을 유지하면서 추론 속도를 향상시킬 수 있습니다.
◦
제한된 계산 자원 환경에서도 LLM을 효과적으로 배포할 수 있는 가능성을 제시합니다.
◦
공개된 코드를 통해 재현성과 활용성을 높였습니다.
•
한계점:
◦
제시된 방법의 효과는 특정 활성화 비율(75%, 25%)에서의 실험 결과에 기반하며, 다른 비율에서는 성능이 달라질 수 있습니다.
◦
LoRA 미세 조정을 통해 일부 성능 저하를 회복하지만, 밀집 모델의 성능을 완전히 회복하지는 못합니다.