Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

VeOmni: Escalabilidad del entrenamiento de modelos de cualquier modalidad con un zoológico de recetas distribuidas centradas en modelos

Created by
  • Haebom

Autor

Qianli Ma, Yaowei Zheng, Zhelun Shi, Zhongkai Zhao, Bin Jia, Ziyue Huang, Zhiqi Lin, Youjie Li, Jiacheng Yang, Yanghua Peng, Zhi Zhang, Xin Liu

Describir

Este artículo destaca que el entrenamiento de Modelos de Lenguaje Grande (LLM) omnimodales sigue siendo un desafío significativo debido a la heterogeneidad de las arquitecturas de modelos requeridas para manejar diversas modalidades, lo que requiere un diseño de sistema sofisticado para el entrenamiento a gran escala. Los marcos existentes suelen entrelazar la definición del modelo y la lógica paralela, lo que limita la escalabilidad y la sobrecarga de ingeniería del entrenamiento omnimodal de extremo a extremo. En este artículo, presentamos VeOmni, un marco de entrenamiento modular y eficiente para acelerar el desarrollo de LLM omnimodales. VeOmni introduce recetas distribuidas centradas en el modelo que desacoplan la comunicación del cálculo, lo que permite un procesamiento paralelo 3D eficiente en LLM omnimodales. También proporciona una interfaz de configuración flexible que permite la integración fluida de nuevas modalidades con cambios mínimos en el código. Demostramos que, utilizando VeOmni, un modelo omnimodal de Mezcla de Expertos (MoE) con 30 000 millones de parámetros puede entrenarse a un rendimiento de 2800 tokens/segundo/GPU y escalarse a longitudes de contexto de 160 000 con paralelismo 3D en 128 GPU. Esto demuestra una excelente eficiencia y escalabilidad para la capacitación LLM omnimodal a gran escala.

Takeaways, Limitations

Takeaways:
Presentamos VeOmni, un nuevo marco que mejora significativamente la eficiencia y la escalabilidad del entrenamiento LLM omnimodal al desacoplar la definición del modelo y la comunicación.
Permitir el entrenamiento LLM omnimodal a gran escala a través del procesamiento paralelo 3D.
Fácil integración de nuevas modalidades a través de una interfaz de configuración flexible.
Los resultados experimentales demuestran el rendimiento y la escalabilidad superiores de VeOmni.
Limitations:
Se necesita más investigación sobre las aplicaciones prácticas de VeOmni y su generalización a varias arquitecturas LLM omnimodales.
Posiblemente optimizado para un entorno de hardware específico, requiere verificación de portabilidad a otros entornos de hardware.
Se necesitan más experimentos y análisis para determinar la eficiencia y la estabilidad del entrenamiento en modelos muy grandes.
👍