[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Servicio de modelos de lenguaje de gran tamaño en Huawei CloudMatrix384

Created by
  • Haebom

Autor

Pengfei Zuo, Huimin Lin, Junbo Deng, Nan Zou, Xingkun Yang, Yingyu Diao, Weifeng Gao, Ke Xu, Zhangyu Chen, Shirui Lu, Zhao Qiu, Peiyang Li, Xingyu Liao, Yipeng Li, Wenxiao Zhang, Ping Zhu, Yinggang Wang, Chuanjie Xiao, Depeng Liang, Dong Cao, Juncheng Liu, Yongqiang Yang, Xiaolong Bai, Yi Li, Huaguo Xie, Huatao Wu, Zhibin Yu, Lv Chen, Hu Liu, Yujun Ding, Haipei Zhu, Jing Xia, Yi Xiong, Zhou Yu, Heng Liao

Describir

Para abordar las limitaciones de la infraestructura de IA causadas por el desarrollo de modelos de lenguaje a gran escala (LLM), este artículo propone Huawei CloudMatrix, una arquitectura de centro de datos de IA de última generación. El supernodo CloudMatrix384 conecta 384 NPU Ascend 910C y 192 CPU Kunpeng con una red de bus unificado (UB) de ancho de banda ultraalto para optimizar el rendimiento de tareas con uso intensivo de comunicaciones, como el procesamiento paralelo experto de MoE a gran escala y el acceso distribuido a la caché de clave-valor. Además, proponemos una solución avanzada de servicio LLM, CloudMatrix-Infer, que integra una arquitectura de servicio peer-to-peer, una estrategia paralela experta a gran escala y optimización basada en hardware. Los resultados de la evaluación con el modelo DeepSeek-R1 muestran que CloudMatrix-Infer logra una eficiencia de última generación (rendimiento de prellenado de 6688 tokens/seg por NPU y rendimiento de decodificación de 1943 tokens/seg por NPU), mantiene un alto rendimiento incluso bajo estrictas restricciones de latencia y mantiene la precisión del modelo con cuantificación INT8.

Takeaways, Limitations

Takeaways:
Presentamos una novedosa arquitectura de integración de hardware y software para el servicio eficiente de modelos de lenguaje a gran escala.
CloudMatrix-Infer logra un rendimiento significativamente mayor y una latencia menor que los sistemas existentes.
Mejore el rendimiento manteniendo la precisión del modelo mediante la cuantificación INT8.
Presentamos una estrategia para el procesamiento paralelo eficiente de modelos MoE a gran escala.
Limitations:
Falta información sobre las especificaciones de hardware y los costos específicos de la arquitectura CloudMatrix.
Se necesitan experimentos y análisis adicionales para determinar la generalización de los resultados a diferentes modelos LLM.
Falta evaluación de la eficiencia energética de la solución propuesta.
Falta análisis comparativo con otras arquitecturas de centros de datos de IA.
👍