Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Rapport technique PLaMo 2

Created by
  • Haebom

Auteur

Réseaux préférés, :, Kaizaburo Chubachi, Yasuhiro Fujita, Shinichi Hemmi, Yuta Hirokawa, Toshiki Kataoka, Goro Kobayashi, Kenichi Maehashi, Calvin Metzger, Hiroaki Mikami, Shogo Murai, Daisuke Nishino, Kento Nozawa, Shintarou Okada, Daisuke Okanohara, Shunta Saito, Shotaro Sano, Shuji Suzuki, Daisuke Tanaka, Avinash Ummadisingu, Hanqin Wang, Sixue Wang, Tianqi Xu

Contour

PLaMo 2 est une série de modèles linguistiques à grande échelle spécialisés pour le japonais. Il utilise une architecture hybride basée sur Samba et, grâce à un pré-entraînement continu, passe à l'attention complète, prenant en charge des contextes de 32 000 jetons. Pour pallier la rareté des données, il a été entraîné à l'aide d'un vaste corpus synthétique, obtenant une efficacité de calcul grâce à la réutilisation des poids et à l'élagage structurel. Cette méthodologie d'élagage efficace a permis d'obtenir un modèle 8B aux performances comparables à celles d'un modèle 100B. Le post-entraînement a encore amélioré le modèle grâce à des pipelines d'apprentissage supervisé (SFT) et d'optimisation directe des préférences (DPO), exploitant des données d'instructions japonaises synthétiques et des techniques de fusion de modèles. L'inférence a été optimisée par vLLM et quantification afin de minimiser les pertes de précision. Il a obtenu des résultats de pointe sur les benchmarks japonais, surpassant les modèles ouverts de taille similaire en termes de suivi des instructions, de fluidité linguistique et de connaissances spécifiques au japonais.

Takeaways, Limitations

Takeaways:
Nous avons amélioré l'efficacité et les performances des modèles de langage à grande échelle avec une architecture hybride basée sur Samba et la prise en charge de contextes de jetons 32K grâce à une pré-formation continue.
En utilisant des données synthétiques et des techniques d’élagage efficaces, nous avons réussi à réduire le poids du modèle en obtenant les performances d’un modèle 100B avec un modèle 8B.
Nous avons obtenu des performances de pointe sur les benchmarks japonais en utilisant des techniques de post-formation telles que SFT, DPO, données synthétiques et fusion de modèles.
L'optimisation de l'inférence via vLLM et la quantification permet une inférence efficace sans compromettre la précision.
Limitations:
En raison de la forte dépendance aux données synthétiques, il existe un risque de dégradation des performances en raison de différences par rapport aux données réelles.
Bien que la taille du modèle ait été réduite, il peut encore nécessiter des ressources de calcul importantes.
Cet article ne contient pas de description détaillée de la méthode spécifique de génération de données synthétiques ni des paramètres détaillés des pipelines SFT et DPO.
Il y a un manque de validation de l’applicabilité et des performances de généralisation à d’autres langages.
👍