Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Mutarjim : Améliorer la traduction bidirectionnelle arabe-anglais grâce à un modèle linguistique simplifié

Created by
  • Haebom

Auteur

Khalil Hennara, Muhammad Hreden, Mohamed Motaism Hamed, Zeina Aldallal, Sara Chrouf, Safwan AlModhayan

Contour

Mutarjim est un modèle linguistique compact et performant pour la traduction bidirectionnelle arabe-anglais. Basé sur Kuwain-1.5B, il est nettement plus compact que les modèles linguistiques plus importants, mais surpasse ces derniers sur plusieurs benchmarks grâce à une approche d'apprentissage optimisée en deux étapes et à un jeu de données d'entraînement de haute qualité soigneusement sélectionné. De plus, pour surmonter les limites des jeux de données de benchmark arabe-anglais existants (domaine restreint, phrases courtes et biais de la source anglaise), nous présentons un nouveau benchmark, Tarjama-25, composé de 5 000 paires de phrases évaluées par des experts. Mutarjim atteint des performances de pointe sur la tâche de traduction anglais-arabe Tarjama-25, surpassant les grands modèles propriétaires tels que GPT-4o mini. Le jeu de données Tarjama-25 est accessible au public.

Takeaways, Limitations

Takeaways:
Nous démontrons que les modèles linguistiques à petite échelle peuvent atteindre des performances de traduction compétitives par rapport aux modèles à grande échelle.
Réduit considérablement les coûts de calcul et les besoins d’apprentissage.
Nous présentons un nouveau benchmark, Tarjama-25, qui surmonte les limites des ensembles de données d’évaluation de traduction arabe-anglais existants.
Contribuer à l’avancement de la recherche en traduction arabe-anglais grâce à la publication de l’ensemble de données Tarjama-25.
Limitations:
Il n'y a aucune mention de cas spécifiques de Limitations ou de dégradation des performances pour le modèle Mutarjim.
L'ensemble de données Tarjama-25 peut être relativement petit par rapport à d'autres repères à grande échelle (5 000 paires de phrases peuvent représenter une quantité de données relativement petite).
Manque de description détaillée du modèle Kuwain-1.5B.
👍