Sign In

IndicSentEval: How Effectively do Multilingual Transformer Models encode Linguistic Properties for Indic Languages?

Created by
  • Haebom
Category
Empty

저자

Akhilesh Aravapalli, Mounika Marreddy, Radhika Mamidi, Manish Gupta, Subba Reddy Oota

개요

본 논문은 트랜스포머 기반 모델의 성능과 신뢰성을 평가하기 위해, 영어 외 6개의 인도 언어에서 8가지 언어학적 속성에 대한 인코딩 능력과 견고성을 연구합니다. 이를 위해, 9개의 다국어 트랜스포머 모델을 사용하고, 약 47,000개의 문장을 포함하는 새로운 다국어 벤치마크 데이터세트 IndicSentEval을 도입합니다. 표면, 구문 및 의미 속성에 대한 프로빙 분석 결과, 영어에서는 일관된 성능을 보인 반면, 인도 언어에서는 혼합된 결과를 보였습니다. 인도 특화 모델이 인도 언어에서 더 나은 성능을 보였고, 범용 모델이 특정 변형에 대해 더 나은 견고성을 보였습니다.

시사점, 한계점

다국어 트랜스포머 모델이 영어에 비해 인도 언어의 언어학적 속성을 인코딩하는 데 일관성이 부족합니다.
인도 특화 모델은 인도 언어에서 더 나은 성능을 보입니다.
범용 모델은 특정 변형에 대해 더 나은 견고성을 보입니다.
본 연구는 인도 언어에 대한 트랜스포머 모델의 프로빙 및 변형에 대한 강점과 약점을 파악하는 데 기여합니다.
연구는 특정 모델 및 언어에 제한될 수 있습니다.
데이터셋 및 코드 공개 (https://github.com/aforakhilesh/IndicBertology)
👍