Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

VeOmni: Escalabilidad del entrenamiento de modelos de cualquier modalidad con un zoológico de recetas distribuidas centradas en modelos

Created by
  • Haebom

Autor

Qianli Ma, Yaowei Zheng, Zhelun Shi, Zhongkai Zhao, Bin Jia, Ziyue Huang, Zhiqi Lin, Youjie Li, Jiacheng Yang, Yanghua Peng, Zhi Zhang, Xin Liu

Describir

Este artículo destaca que el entrenamiento de LLM (modelos de lenguaje a gran escala) omnimodales sigue siendo un desafío significativo debido a la heterogeneidad de las arquitecturas de modelos requeridas para gestionar diversas modalidades, lo que requiere diseños de sistemas sofisticados para el entrenamiento a gran escala. Los marcos existentes suelen combinar la definición del modelo con la lógica paralela, lo que limita la escalabilidad y genera una importante sobrecarga de ingeniería para el entrenamiento omnimodal integral. En respuesta a esto, presentamos VeOmni, un marco de entrenamiento modular y eficiente para acelerar el desarrollo de LLM omnimodales. VeOmni introduce recetas distribuidas centradas en el modelo que desacoplan la comunicación del cálculo, lo que permite un procesamiento paralelo 3D eficiente en LLM omnimodales. Además, cuenta con una interfaz de configuración flexible que facilita la integración fluida de nuevas modalidades con cambios mínimos en el código. Utilizando VeOmni, entrenamos un modelo de mezcla omnimodal de expertos (MoE) con 30 mil millones de parámetros a un rendimiento de 2800 tokens/segundo/GPU y escalamos a una longitud de contexto de 160 K con paralelismo 3D en 128 GPU, lo que demuestra una excelente eficiencia y escalabilidad para el entrenamiento LLM omnimodal a gran escala.

Takeaways, Limitations

Takeaways:
Presentamos el marco VeOmni, que mejora significativamente la eficiencia y la escalabilidad del entrenamiento LLM omnimodal.
La disociación de la definición del modelo y la comunicación permite un entrenamiento eficiente a gran escala a través del procesamiento paralelo 3D.
Proporciona una interfaz de configuración flexible para integrar nuevas modalidades.
Demostramos experimentalmente que un modelo MoE omnimodal con 30B parámetros se puede entrenar de manera eficiente en 128 GPU.
Limitations:
Se necesita más investigación para determinar la aplicabilidad práctica y el rendimiento de generalización del marco VeOmni.
Se necesitan más evaluaciones de desempeño para LLM omnimodales de varias escalas y en varios entornos de hardware.
Puede existir una dependencia de un entorno de hardware específico (128 GPU). Es necesario verificar el rendimiento de generalización en otros entornos.
👍