Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Mutarjim: Advancing Bidirectional Arabic-English Translation with a Small Language Model

Created by
  • Haebom

저자

Khalil Hennara, Muhammad Hreden, Mohamed Motaism Hamed, Zeina Aldallal, Sara Chrouf, Safwan AlModhayan

개요

Mutarjim은 아랍어-영어 양방향 번역을 위한 소형이지만 강력한 언어 모델입니다. Kuwain-1.5B를 기반으로 하며, 대규모 언어 모델보다 크기는 훨씬 작지만, 최적화된 2단계 학습 방식과 엄선된 고품질 학습 데이터셋을 통해 여러 기준 벤치마크에서 더 큰 모델들을 능가하는 성능을 보여줍니다. 또한 기존 아랍어-영어 벤치마킹 데이터셋의 한계(좁은 도메인, 짧은 문장 길이, 영어 소스 편향)를 극복하기 위해 5,000개의 전문가 검토 문장 쌍으로 구성된 새로운 벤치마크 Tarjama-25를 제시합니다. Mutarjim은 Tarjama-25의 영어-아랍어 번역 과제에서 최첨단 성능을 달성하며, GPT-4o mini와 같은 대규모 독점 모델을 능가합니다. Tarjama-25 데이터셋은 공개적으로 배포됩니다.

시사점, 한계점

시사점:
소규모 언어 모델이 대규모 모델과 비교하여 경쟁력 있는 번역 성능을 달성할 수 있음을 보여줌.
계산 비용과 학습 요구사항을 크게 줄임.
기존 아랍어-영어 번역 평가 데이터셋의 한계를 극복하는 새로운 벤치마크 Tarjama-25를 제시함.
Tarjama-25 데이터셋의 공개를 통한 아랍어-영어 번역 연구 발전에 기여.
한계점:
Mutarjim 모델의 구체적인 한계점이나 성능 저하 사례에 대한 언급이 부족함.
Tarjama-25 데이터셋의 규모가 다른 대규모 벤치마크에 비해 상대적으로 작을 수 있음. (5,000 문장 쌍은 상대적으로 적은 데이터 양일 수 있음)
Kuwain-1.5B 모델에 대한 자세한 설명이 부족함.
👍