Mutarjim est un modèle linguistique compact et performant pour la traduction bidirectionnelle arabe-anglais. Basé sur Kuwain-1.5B, il est nettement plus compact que les modèles linguistiques plus importants, mais surpasse ces derniers sur plusieurs benchmarks grâce à une approche d'apprentissage optimisée en deux étapes et à un jeu de données d'entraînement de haute qualité soigneusement sélectionné. De plus, pour surmonter les limites des jeux de données de benchmark arabe-anglais existants (domaine restreint, phrases courtes et biais de la source anglaise), nous présentons un nouveau benchmark, Tarjama-25, composé de 5 000 paires de phrases évaluées par des experts. Mutarjim atteint des performances de pointe sur la tâche de traduction anglais-arabe Tarjama-25, surpassant les grands modèles propriétaires tels que GPT-4o mini. Le jeu de données Tarjama-25 est accessible au public.