Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Low-Resource Transliteration for Roman-Urdu and Urdu Using Transformer-Based Models

Created by
  • Haebom
Category
Empty

저자

Umer Butt, Stalin Veranasi, Gunter Neumann

개요

본 논문은 저자원 언어의 중요성이 커지고 있는 정보 검색(IR) 분야에서 우르두어와 로마자 우르두어 간의 음역 변환에 대한 연구를 제시합니다. 기존 RNN 기반 연구의 도메인 적응력 저하 및 평가의 한계를 극복하기 위해, m2m100 다국어 번역 모델을 기반으로 마스크 언어 모델링(MLM) 사전 훈련 및 Roman-Urdu-Parl 및 Dakshina 데이터셋을 활용한 미세 조정을 통해 트랜스포머 기반 접근 방식을 제안합니다. 엄격한 데이터셋 분할 및 BLEU, 문자 수준 BLEU, CHRF 평가 지표를 사용하여 우르두어->로마자 우르두어 96.37, 로마자 우르두어->우르두어 97.44의 Char-BLEU 점수를 달성, RNN 기준 및 GPT-4o Mini를 능가하는 성능을 보였습니다. 이는 저자원 언어 음역 변환 작업에 대한 다국어 전이 학습의 효과를 보여줍니다.

시사점, 한계점

시사점:
다국어 전이 학습을 활용한 저자원 언어 음역 변환의 효과성을 입증.
m2m100 모델과 MLM 사전 훈련의 우수성을 확인.
엄격한 데이터셋 분할과 다양한 평가 지표 사용으로 신뢰성 있는 결과 제시.
우르두어와 로마자 우르두어 간의 음역 변환 성능 향상에 기여.
한계점:
연구에 사용된 데이터셋의 범위와 일반화 가능성에 대한 추가적인 검토 필요.
실제 응용 환경에서의 성능 평가가 부족.
다른 저자원 언어로의 확장성에 대한 추가 연구 필요.
👍