Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

PuzzleMoE: Efficient Compression of Large Mixture-of-Experts Models via Sparse Expert Merging and Bit-packed inference

Created by
  • Haebom
Category
Empty

저자

Yushu Zhao, Zheng Wang, Minjia Zhang

개요

PuzzleMoE는 MoE(Mixture-of-Experts) 모델의 높은 메모리 오버헤드를 해결하기 위해 제안된 훈련 없는 압축 방법입니다. PuzzleMoE는 요소별 가중치 중복성과 전문성을 파악하여 희소 전문가 병합을 수행하고, 이진 마스크 저장 오버헤드를 피하기 위해 비트 패킹 인코딩 방식을 도입합니다. 이를 통해 최대 50%까지 MoE 모델을 압축하면서 정확도를 유지하고, 이전 압축 방법보다 MMLU에서 최대 16.7%의 성능 향상 및 최대 1.28배의 추론 속도 향상을 달성합니다.

시사점, 한계점

시사점:
훈련 없이 MoE 모델 압축 가능
높은 압축률에서도 정확도 유지
기존 방법 대비 성능 향상
추론 속도 향상
한계점:
논문에서 구체적인 한계점에 대한 언급 없음 (제한적인 정보로 인해 판단 불가)
👍