Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Kuwain 1.5B : un SLM arabe via injection de langue

Created by
  • Haebom

Auteur

Khalil Hennara, Sara Chrouf, Mohamed Motaism Hamed, Zeina Aldallal, Omar Hadid, Safwan AlModhayan

Contour

Cet article présente une nouvelle méthode permettant d'intégrer efficacement une nouvelle langue dans un modèle linguistique à grande échelle (MLH) existant. Nous avons entraîné un petit modèle open source basé sur l'anglais, Kuwain, avec 1,5 milliard de paramètres, en y injectant de l'arabe. Nous avons obtenu une amélioration moyenne de 8 % des performances en arabe tout en préservant les connaissances existantes, offrant ainsi une alternative économique à l'entraînement d'un modèle complet pour l'anglais et l'arabe. Cela démontre le potentiel d'une mise à l'échelle efficace et ciblée des modèles linguistiques, sans recyclage approfondi ni processus gourmands en ressources.

Takeaways, Limitations

Takeaways:
Une nouvelle façon d'ajouter efficacement de nouvelles langues aux LLM existants.
Amélioration des performances dans la langue cible (8 % en moyenne) tout en minimisant la perte des connaissances existantes.
Présenter la possibilité de créer de manière rentable un programme LLM multilingue sans recyclage intensif.
Limitations:
Le modèle de Kuwain est relativement petit (1,5 milliard de paramètres), donc ses performances lorsqu'il est appliqué à des modèles plus grands sont incertaines.
Des recherches supplémentaires sont nécessaires sur la généralisabilité à travers différentes langues et paires de langues spécifiques.
L’efficacité de la méthode proposée peut varier en fonction du modèle open source utilisé et des caractéristiques du langage cible.
👍