Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Serving Large Language Models on Huawei CloudMatrix384

Created by
  • Haebom

저자

Pengfei Zuo, Huimin Lin, Junbo Deng, Nan Zou, Xingkun Yang, Yingyu Diao, Weifeng Gao, Ke Xu, Zhangyu Chen, Shirui Lu, Zhao Qiu, Peiyang Li, Xianyu Chang, Zhengzhong Yu, Fangzheng Miao, Jia Zheng, Ying Li, Yuan Feng, Bei Wang, Zaijian Zong, Mosong Zhou, Wenli Zhou, Houjiang Chen, Xingyu Liao, Yipeng Li, Wenxiao Zhang, Ping Zhu, Yinggang Wang, Chuanjie Xiao, Depeng Liang, Dong Cao, Juncheng Liu, Yongqiang Yang, Xiaolong Bai, Yi Li, Huaguo Xie, Huatao Wu, Zhibin Yu, Lv Chen, Hu Liu, Yujun Ding, Haipei Zhu, Jing Xia, Yi Xiong, Zhou Yu, Heng Liao

개요

본 논문은 대규모 언어 모델(LLM)의 발전으로 인해 발생하는 AI 인프라의 한계를 해결하기 위해 Huawei CloudMatrix, 차세대 AI 데이터센터 아키텍처를 제시한다. CloudMatrix384 수퍼노드는 384개의 Ascend 910C NPU와 192개의 Kunpeng CPU를 초고대역폭 통합 버스(UB) 네트워크로 연결하여, 대규모 MoE 전문가 병렬 처리 및 분산 키-값 캐시 접근과 같은 통신 집약적 작업의 성능을 최적화한다. 또한, 이를 활용한 고급 LLM 서비스 솔루션인 CloudMatrix-Infer를 제안하며, 이는 피어-투-피어 서비스 아키텍처, 대규모 전문가 병렬 전략, 하드웨어 인식 최적화를 통합한다. DeepSeek-R1 모델을 사용한 평가 결과, CloudMatrix-Infer는 최첨단 효율성(NPU당 6,688 토큰/초의 프리필 처리량, NPU당 1,943 토큰/초의 디코드 처리량)을 달성하고, 엄격한 지연 시간 제약 조건 하에서도 높은 처리량을 유지하며, INT8 양자화를 통해 모델 정확도를 유지한다는 것을 보여준다.

시사점, 한계점

시사점:
초대규모 언어 모델의 효율적인 서비스를 위한 새로운 하드웨어-소프트웨어 통합 아키텍처를 제시한다.
CloudMatrix-Infer는 기존 시스템보다 월등히 높은 처리량과 낮은 지연 시간을 달성한다.
INT8 양자화를 통해 모델 정확도를 유지하면서 성능을 향상시킨다.
대규모 MoE 모델의 효율적인 병렬 처리를 위한 전략을 제시한다.
한계점:
CloudMatrix 아키텍처의 구체적인 하드웨어 사양 및 비용에 대한 정보가 부족하다.
다양한 LLM 모델에 대한 일반화 가능성에 대한 추가적인 실험 및 분석이 필요하다.
제시된 솔루션의 에너지 효율성에 대한 평가가 부족하다.
다른 AI 데이터센터 아키텍처와의 비교 분석이 부족하다.
👍