Breaking the Silence: A Dataset and Benchmark for Bangla Text-to-Gloss Translation

Created by

Haebom

저자

Sharif Mohammad Abdullah, Abhijit Paul, Shubhashis Roy Dipta, Zarif Masud, Shebuti Rayana, Ahmedul Kabir

💡 개요

이 연구는 방글라데시의 방글라 수어(BdSL)와 관련된 기존 연구의 부족, 특히 방글라 텍스트-글로스 번역 분야의 데이터셋 및 연구 부재 문제를 해결합니다. 연구진은 1,000개의 수동 주석 및 4,000개의 합성 생성된 방글라 문장-글로스 쌍으로 구성된 최초의 방글라 텍스트-글로스 데이터셋을 구축했으며, GPT-5.4가 가장 우수한 성능을 보였으나 미세 조정된 mBART 모델도 경쟁력 있는 성능을 나타냈습니다.

🔑 시사점 및 한계

•

저자원 환경에서 수어 번역을 위한 최초의 방글라 텍스트-글로스 데이터셋 및 학습된 모델을 소개합니다.

•

체계적으로 생성된 합성 데이터가 저자원 수어 번역의 난제를 해결하는 데 효과적임을 입증합니다.

•

대규모 언어 모델(LLM)과 미세 조정된 소형 모델의 성능을 비교 분석하여 효율성을 보여줍니다.

•

현재 데이터셋의 규모와 다양성을 확장하고, 실제 사용자 평가를 통한 추가적인 개선이 필요합니다.

PDF 보기

Made with Slashpage