Sign In

CoServe: Efficient Collaboration-of-Experts (CoE) Model Inference with Limited Memory

Created by
  • Haebom
Category
Empty

저자

Jiashun Suo, Xiaojian Liao, Limin Xiao, Li Ruan, Jinquan Wang, Xiao Su, Zhisheng Huo

개요

본 논문은 GPT-4와 같은 대규모 언어 모델의 자원 집약적인 문제점을 해결하기 위해, 특정 작업에 특화된 소규모 전문가 모델들을 통합하는 Collaboration-of-Experts (CoE) 접근 방식을 제안합니다. CoE는 정확도 향상에 기여하지만, 많은 전문가 모델을 필요로 하여 메모리 용량에 대한 부담이 큽니다. 이에 본 논문에서는 제한된 메모리를 가진 이기종 CPU 및 GPU 환경에서 효율적인 CoE 모델 서빙 시스템인 CoServe를 제안합니다. CoServe는 전문가 간의 의존성을 활용하여 불필요한 전문가 전환을 줄이고, 의존성 인식 요청 스케줄러 및 전문가 관리를 통해 효율적인 추론을 수행합니다. 또한, 다양한 프로세서와 장치에 대한 최적의 자원 할당을 자동으로 찾는 오프라인 프로파일러를 도입합니다. 실제 지능형 제조 작업에서 CoServe는 최첨단 시스템에 비해 4.5배에서 12배까지 높은 처리량을 달성합니다.

시사점, 한계점

시사점:
제한된 메모리 환경에서 CoE 모델의 효율적인 서빙을 위한 새로운 시스템 CoServe 제안.
전문가 간 의존성을 활용하여 불필요한 전문가 전환을 최소화하고 처리량을 크게 향상시킴.
오프라인 프로파일러를 통해 최적의 자원 할당 자동화.
실제 지능형 제조 작업에서 높은 처리량 향상을 실험적으로 검증.
한계점:
CoServe의 성능 향상은 특정 지능형 제조 작업에 국한될 수 있음. 다른 응용 분야로의 일반화 가능성에 대한 추가 연구 필요.
전문가 간 의존성 분석 및 관리의 복잡성. 의존성을 효율적으로 파악하고 관리하는 알고리즘의 개선 필요.
오프라인 프로파일링에 소요되는 시간 및 자원 고려. 온라인 프로파일링 기법과의 비교 및 분석 필요.
👍