Mutarjim es un modelo lingüístico compacto pero potente para la traducción bidireccional árabe-inglés. Basado en Kuwain-1.5B, es significativamente más pequeño que los modelos lingüísticos más grandes, pero los supera en múltiples pruebas de referencia gracias a un enfoque de aprendizaje optimizado en dos etapas y a un conjunto de datos de entrenamiento de alta calidad cuidadosamente seleccionado. Además, para superar las limitaciones de los conjuntos de datos de referencia árabe-inglés existentes (dominio limitado, oraciones cortas y sesgo de la fuente en inglés), presentamos un nuevo modelo de referencia, Tarjama-25, compuesto por 5000 pares de oraciones revisados por expertos. Mutarjim alcanza un rendimiento de vanguardia en la tarea de traducción inglés-árabe de Tarjama-25, superando a modelos propietarios de gran tamaño como GPT-4o mini. El conjunto de datos Tarjama-25 está disponible públicamente.