Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

MiniCPM4: LLM ultraeficientes en dispositivos finales

Created by
  • Haebom

Autor

Equipo MiniCPM, Chaojun Xiao, Yuxuan Li, Xu Han, Yuzhuo Bai, Jie Cai, Haotian Chen, Wentong Chen, Qiuzuo Li, Siyuan Li, Wenhao Li, Xianghui Sun, Peijun Tang, Fangzheng Wang, Feng Wang, Shuo Wang, Yudong Wang, Zheng Wang, Yesai Wu, Zhenyu Xiao, Jie Zhou, Jie Zhou, Wei Zhou, Yanghao Zhou, Zihan Zhou, Zixuan Zhou, Zhiyuan Liu, Guoyang Zeng, Chao Jia, Dahai Li, Maosong Sun

Describir

MiniCPM4 es un modelo de lenguaje a gran escala (LLM) altamente eficiente, diseñado para dispositivos de usuario final. Logra su eficiencia mediante innovaciones en cuatro áreas clave: arquitectura del modelo (InfLLM v2), datos de entrenamiento (UltraClean, UltraChat v2), algoritmos de entrenamiento (ModelTunnel v2, despliegue por fragmentos, BitCPM) y sistema de inferencia (CPM.cu). InfLLM v2 es un mecanismo de atención dispersa entrenable que acelera los pasos de prellenado y decodificación para el procesamiento de contextos extensos. UltraClean y UltraChat v2 son estrategias eficientes y precisas de filtrado y generación de datos de preentrenamiento, así como conjuntos de datos integrales para el ajuste fino mediante aprendizaje supervisado. Con estos conjuntos de datos, logramos un rendimiento satisfactorio del modelo con tan solo 8 billones de tokens de entrenamiento. ModelTunnel v2 es un algoritmo para la búsqueda eficiente de estrategias de preentrenamiento, que mejora los métodos de postentrenamiento existentes mediante el despliegue por fragmentos y BitCPM. CPM.cu integra atención dispersa, cuantificación de modelos y muestreo especulativo para lograr un prellenado y una decodificación eficientes. Para satisfacer las diversas necesidades de los dispositivos, presentamos MiniCPM4.1, un modelo de inferencia híbrido disponible en dos versiones, con parámetros de 0.5B y 8B, y utilizable tanto en modo de inferencia profunda como en modo de no inferencia. Nuestras evaluaciones muestran que MiniCPM4 y MiniCPM4.1 superan a modelos de código abierto de tamaño similar en las pruebas de rendimiento, y la versión de 8B, en particular, muestra mejoras significativas en la comprensión y generación de secuencias largas.

Takeaways, Limitations

Takeaways:
Demuestra el potencial para desarrollar modelos de lenguaje a gran escala que funcionen eficientemente en los dispositivos del usuario final.
Se presenta una nueva arquitectura y algoritmo para mejorar la velocidad del procesamiento de contextos largos.
Reduzca el tamaño de los datos de entrenamiento mediante estrategias de generación y filtrado de datos eficientes.
Disponible en una variedad de versiones de modelos para satisfacer diversos requisitos de dispositivos.
Mejoras superiores de rendimiento y velocidad en comparación con modelos de código abierto de tamaño similar.
Limitations:
Falta de análisis detallado del rendimiento y la eficiencia del modelo de inferencia híbrido en MiniCPM4.1.
Se necesitan más investigaciones para determinar la generalización de las tecnologías innovadoras presentadas.
Es necesario un análisis comparativo más completo con otros LLM.
El tamaño de los datos de entrenamiento de 8 billones de tokens sigue siendo significativo y se necesita investigación para encontrar formas de mantener el rendimiento con aún menos datos.
👍