Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

MiniCPM4 : des LLM ultra-efficaces sur les terminaux

Created by
  • Haebom

Auteur

ÉQuipe MiniCPM, Chaojun Xiao, Yuxuan Li, Xu Han, Yuzhuo Bai, Jie Cai, Haotian Chen, Wentong Chen, Qiuzuo Li, Siyuan Li, Wenhao Li, Xianghui Sun, Peijun Tang, Fangzheng Wang, Feng Wang, Shuo Wang, Yudong Wang, Zheng Wang, Yesai Wu, Zhenyu Xiao, Jie Xie, Zihao Zhou, Jie Zhou, Wei Zhou, Yanghao Zhou, Zihan Zhou, Zixuan Zhou, Zhiyuan Liu, Guoyang Zeng, Chao Jia, Dahai Li, Maosong Sun

Contour

MiniCPM4 est un modèle de langage à grande échelle (LLM) hautement performant, conçu pour les appareils des utilisateurs finaux. Son efficacité repose sur des innovations dans quatre domaines clés : l'architecture du modèle (InfLLM v2), les données d'entraînement (UltraClean, UltraChat v2), les algorithmes d'entraînement (ModelTunnel v2, déploiement par blocs, BitCPM) et le système d'inférence (CPM.cu). InfLLM v2 est un mécanisme d'attention parcimonieuse entraînable qui accélère les étapes de pré-remplissage et de décodage pour le traitement de contextes longs. UltraClean et UltraChat v2 offrent des stratégies de filtrage et de génération de données de pré-entraînement efficaces et précises, ainsi que des jeux de données complets d'optimisation par apprentissage supervisé. Grâce à ces jeux de données, nous avons obtenu des performances de modèle satisfaisantes avec seulement 8 000 milliards de jetons d'entraînement. ModelTunnel v2 est un algorithme de recherche de stratégie de pré-entraînement efficace, améliorant les méthodes de post-entraînement existantes grâce au déploiement par blocs et à BitCPM. CPM.cu intègre l'attention parcimonieuse, la quantification de modèles et l'échantillonnage spéculatif pour un pré-remplissage et un décodage efficaces. Pour répondre aux exigences variées des appareils, nous présentons MiniCPM4.1, un modèle d'inférence hybride disponible en deux versions, avec des paramètres de 0,5 et 8 B, et utilisable en mode d'inférence profonde et de non-inférence. Nos évaluations montrent que MiniCPM4 et MiniCPM4.1 surpassent les modèles open source de taille similaire lors des benchmarks, la version 8 B affichant notamment des accélérations significatives dans la compréhension et la génération de séquences longues.

Takeaways, Limitations

Takeaways:
Démontre le potentiel de développement de modèles linguistiques à grande échelle qui fonctionnent efficacement sur les appareils des utilisateurs finaux.
Une nouvelle architecture et un nouvel algorithme sont présentés pour améliorer la vitesse de traitement des contextes longs.
Réduisez la taille des données de formation grâce à des stratégies efficaces de filtrage et de génération de données.
Disponible dans une variété de versions de modèles pour répondre aux diverses exigences des appareils.
Améliorations supérieures des performances et de la vitesse par rapport aux modèles open source de taille similaire.
Limitations:
Manque d'analyse détaillée des performances et de l'efficacité du modèle d'inférence hybride dans MiniCPM4.1.
Des recherches supplémentaires sont nécessaires pour déterminer la généralisabilité des technologies innovantes présentées.
Une analyse comparative plus complète avec d’autres LLM est nécessaire.
La taille des données de formation de 8 000 milliards de jetons est toujours importante et des recherches sont nécessaires pour trouver des moyens de maintenir les performances avec encore moins de données.
👍