Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Rethinking Tokenization for Rich Morphology: The Dominance of Unigram over BPE and Morphological Alignment

Created by
  • Haebom
Category
Empty

저자

Saketh Reddy Vemula, Sandipan Dandapat, Dipti Misra Sharma, Parameswari Krishnamurthy

개요

본 논문은 토크나이저 알고리즘(BPE, Unigram 등), 형태학적 정렬, 토큰화 품질(압축 효율 등) 및 다운스트림 성능 간의 관계를, 특히 형태가 복잡한 언어에 대해 연구한다. 텔루구어를 대상으로 소규모 BERT 모델을 활용하여 사전 훈련부터 미세 조정까지 토크나이저를 종합적으로 평가하고, 힌디어와 영어를 대상으로 예비 평가를 수행한다. 텔루구어 토크나이저의 형태학적 정렬을 평가하기 위해 600개의 파생어 및 7000개의 굴절어 형태소 분할을 포함하는 데이터 세트를 구축한다.

시사점, 한계점

텔루구어의 경우, 토크나이저 알고리즘 선택이 성능에 가장 큰 영향을 미치며, Unigram 기반 토크나이저가 대부분의 설정에서 BPE보다 우수하다.
형태학적 정렬이 우수한 토크나이저는 텍스트 분류 및 구조 예측 작업에서 성능과 긍정적인 상관관계를 보이지만, 그 영향은 토크나이저 알고리즘에 비해 부차적이다.
사전 분할을 위해 형태학적 정보를 사용하는 하이브리드 접근 방식은 BPE의 성능을 크게 향상시키지만, Unigram에는 큰 영향을 미치지 않는다.
다운스트림 성능 추세를 일관되게 설명할 수 있는 토크나이저에 대한 포괄적인 내재적 평가 지표의 필요성을 보여준다.
👍