Mutarjim은 아랍어-영어 양방향 번역을 위한 소형이지만 강력한 언어 모델입니다. Kuwain-1.5B를 기반으로 하며, 대규모 언어 모델보다 크기는 훨씬 작지만, 최적화된 2단계 학습 방식과 엄선된 고품질 학습 데이터셋을 통해 여러 기준 벤치마크에서 더 큰 모델들을 능가하는 성능을 보여줍니다. 또한 기존 아랍어-영어 벤치마킹 데이터셋의 한계(좁은 도메인, 짧은 문장 길이, 영어 소스 편향)를 극복하기 위해 5,000개의 전문가 검토 문장 쌍으로 구성된 새로운 벤치마크 Tarjama-25를 제시합니다. Mutarjim은 Tarjama-25의 영어-아랍어 번역 과제에서 최첨단 성능을 달성하며, GPT-4o mini와 같은 대규모 독점 모델을 능가합니다. Tarjama-25 데이터셋은 공개적으로 배포됩니다.