Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

AnyExperts: On-Demand Expert Allocation for Multimodal Language Models with Mixture of Expert

Created by
  • Haebom
Category
Empty

저자

Yuting Gao, Wang Lan, Hengyuan Zhao, Linjiang Huang, Si Liu, Qingpei Guo

개요

Multimodal Mixture-of-Experts (MoE) 모델은 확장 가능하고 효율적인 대규모 시각-언어 시스템 구축에 유망하다. 하지만 기존 접근 방식은 고정된 라우팅 전략을 사용하여 모달리티 간의 의미적 중요성 차이를 무시한다. 이를 해결하기 위해, 본 논문은 토큰의 의미적 중요성에 따라 가변적인 수의 전문가 슬롯을 할당하는 온디맨드, 예산 인식 동적 라우팅 프레임워크인 AnyExperts를 제안한다. AnyExperts는 고정된 범위 내에서 토큰당 총 슬롯 수를 제한하고, 각 슬롯은 실제 전문가 또는 가상 전문가로 채워진다. 모델은 의미적으로 풍부한 영역에는 더 많은 실제 전문가를 할당하고, 불필요한 내용에는 가상 전문가를 활용하여 실제 전문가와 가상 전문가의 비율을 적응적으로 조절한다. 시각 이해, 오디오 이해, NLP 이해 등 다양한 작업에서 AnyExperts는 동일한 컴퓨팅 예산 하에서 성능을 향상시켰다.

시사점, 한계점

시사점:
AnyExperts는 의미적 중요성에 따라 동적으로 전문가를 할당하여 컴퓨팅 자원 효율성을 높임.
다양한 시각 이해, 오디오 이해, NLP 작업에서 성능 향상.
일반적인 이미지/비디오 작업에서 40% 적은 실제 전문가 활성화로도 유사한 정확도 달성.
텍스트 밀집 작업(OCR, NLP)에서 10%의 실제 전문가 사용량 감소에도 성능 유지.
한계점:
가상 전문가의 사용 비율에 대한 최적의 설정 필요.
동적 라우팅 메커니즘 설계의 복잡성.
모델의 실제 배포 및 확장성에 대한 추가 연구 필요.
👍