MACS: Modality-Aware Capacity Scaling for Efficient Multimodal MoE Inference

작성자

Haebom

카테고리

Empty

저자

Bo Li, Chuan Wu, shaolin Zhu

💡 개요

본 논문은 Mixture-of-Experts (MoE) 멀티모달 대형 언어 모델 (MoE MLLMs)의 추론 효율성 병목 현상, 특히 Expert Parallelism (EP)에서의 '스트래글러 효과' 문제를 해결하기 위해 MACS (Modality-Aware Capacity Scaling)라는 새로운 훈련 없는(training-free) 추론 프레임워크를 제안합니다. MACS는 정보의 이질성과 모달리티의 동적인 변화를 고려하여, 시각 토큰의 의미적 가치를 정량화하고 입력에 따라 전문가 자원을 동적으로 할당함으로써 기존 방법론의 한계를 극복합니다. 실험 결과, MACS는 다양한 멀티모달 벤치마크에서 기존 방법 대비 뛰어난 성능을 보여 MoE MLLM의 효율적인 EP 추론 배포를 위한 새롭고 강력한 솔루션을 제시합니다.

🔑 시사점 및 한계

•

멀티모달 MoE 모델의 EP 추론에서 발생하는 스트래글러 효과를 완화하는 효과적인 훈련 없는(training-free) 방법론을 제시했습니다.

•

정보의 이질성과 모달리티 동적 변화라는 멀티모달 특성을 고려한 새로운 부하 분산 및 자원 할당 메커니즘을 성공적으로 도입했습니다.

•

향후 더 복잡한 멀티모달 작업이나 다른 종류의 MoE 아키텍처에 대한 MACS의 일반화 가능성을 탐색하는 연구가 필요합니다.

PDF 보기

Made with Slashpage