Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Dictionaries to the Rescue: Cross-Lingual Vocabulary Transfer for Low-Resource Languages Using Bilingual Dictionaries

Created by
  • Haebom

저자

Haruki Sakajo, Yusuke Ide, Justin Vasselli, Yusuke Sakai, Yingtao Tian, Hidetaka Kamigaito, Taro Watanabe

개요

본 논문은 저자원 언어를 포함한 새로운 언어에 사전 훈련된 언어 모델을 적용하는 데 있어서 크로스-링구얼 어휘 전이(Cross-lingual vocabulary transfer)의 유용성에 초점을 맞추고 있습니다. 기존의 단일 언어 또는 병렬 말뭉치를 활용하는 방법들은 저자원 언어에 적용할 때 어려움을 겪습니다. 이에 본 논문에서는 설명 언어학자들 덕분에 많은 언어에 대해 이용 가능한 이중 언어 사전을 활용하는 단순하면서도 효과적인 어휘 전이 방법을 제안합니다. 제안된 방법은 BPE 토크나이저의 특성, 즉 어휘에서 하위 단어를 제거하면 더 짧은 하위 단어로 대체되는 특성을 활용합니다. 대상 하위 단어의 임베딩은 토크나이저에서 하위 단어를 점진적으로 제거함으로써 반복적으로 추정됩니다. 실험 결과는 제안된 방법이 저자원 언어에 대해 기존 방법보다 성능이 우수함을 보여주며, 사전 기반 접근 방식의 효과를 입증합니다.

시사점, 한계점

시사점:
이중 언어 사전을 활용한 단순하고 효과적인 크로스-링구얼 어휘 전이 방법 제시.
저자원 언어에 대한 기존 방법보다 우수한 성능을 달성.
사전 기반 접근 방식의 효용성을 실험적으로 입증.
BPE 토크나이저의 특성을 효과적으로 활용.
한계점:
이중 언어 사전의 질에 대한 의존성. 사전의 정확성과 완전성이 성능에 영향을 미칠 수 있음.
제안된 방법이 특정 토크나이저(BPE)에 의존적임. 다른 토크나이저에는 적용이 어려울 수 있음.
실험은 저자원 언어에 국한되어 있음. 고자원 언어에 대한 성능은 추가 연구가 필요함.
👍