Sign In

Integrating Linguistics and AI: Morphological Analysis and Corpus development of Endangered Toto Language of West Bengal

Created by
  • Haebom
Category
Empty

저자

Ambalika Guha, Sajal Saha, Debanjan Ballav, Soumi Mitra, Hritwick Chakraborty

개요

본 논문은 인도의 멸종 위기에 처한 토토어를 디지털 방식으로 보존하고 장려하기 위해 토토어-벵갈어-영어 3개 국어 학습 애플리케이션을 개발하는 프로젝트의 일부이다. 이 애플리케이션은 토토어 원어민과 비원어민 학습자 모두를 위해 설계되었으며, 유니코드 스크립트 통합과 구조화된 언어 말뭉치를 통해 접근성과 사용성을 보장하여 언어를 활성화하는 것을 목표로 한다. 연구에는 현장 조사를 통해 수집된 상세한 언어적 기록과 형태소 태깅된 3개 국어 말뭉치를 사용한 소규모 언어 모델(SLM) 및 변환기 기반 번역 엔진 훈련이 포함된다. 분석은 인칭-수-성 일치, 시제-상-법 구분, 격 표시와 같은 굴절 형태론과 단어 등급 변화를 반영하는 파생 전략을 다룬다. 또한 스크립트 사용을 향상시키기 위해 스크립트 표준화 및 디지털 리터러시 도구도 개발되었다. 본 연구는 전통적인 언어학적 방법론과 AI를 통합하여 멸종 위기에 처한 언어를 보존하는 지속 가능한 모델을 제공한다. 언어학 연구와 기술 혁신 간의 이러한 연결은 지역 사회 기반 언어 부활을 위한 학제 간 협업의 가치를 강조한다.

시사점, 한계점

멸종 위기에 처한 언어의 보존을 위한 디지털 도구 개발: 언어 학습 애플리케이션을 통해 토토어 보존 및 활성화 시도
3개 국어(토토어-벵갈어-영어) 지원: 다양한 사용자를 위한 접근성 향상
소규모 언어 모델(SLM) 및 변환기 기반 번역 엔진 활용: 언어 기술 향상에 기여
현장 조사 기반의 상세한 언어적 기록: 언어 연구의 정확성 확보
스크립트 표준화 및 디지털 리터러시 도구 개발: 디지털 환경에서의 언어 사용 촉진
학제 간 협업의 중요성 강조: 언어학, 기술, 지역 사회의 융합
한계점: 논문에 구체적인 한계점에 대한 언급은 없음
👍