Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Introducing A Bangla Sentence - Gloss Pair Dataset for Bangla Sign Language Translation and Research

Created by
  • Haebom
Category
Empty

저자

Neelavro Saha, Rafi Shahriyar, Nafis Ashraf Roudra, Saadman Sakib, Annajiat Alim Rasel

개요

본 논문은 문장 수준 번역을 위한 대규모 데이터셋 부족으로 인해 저자원 NLP 과제인 벵골 수화(BdSL) 번역의 어려움을 해결하고자 한다. 이를 위해, 저자들은 1,000개의 수동 주석이 달린 문장-글로스 쌍으로 구성된 새로운 병렬 데이터셋인 Bangla-SGP를 소개한다. 이 데이터셋은 구문 및 형태 규칙을 사용하여 규칙 기반 검색-증강 생성(RAG) 파이프라인을 통해 약 3,000개의 합성 쌍으로 보강되었다. 글로스는 벵골어 수화를 지원하는 단어이며 연속적인 수화를 위한 중간 표현 역할을 한다. 또한, mBart50, Google mT5, GPT4.1-nano와 같은 변환기 기반 모델을 미세 조정하고 BLEU 점수를 사용하여 문장-글로스 번역 성능을 평가했다. 마지막으로, 평가 지표를 기반으로 데이터셋 및 RWTH-PHOENIX-2014T 벤치마크 간의 모델의 글로스 번역 일관성을 비교했다.

시사점, 한계점

시사점:
문장 수준의 벵골 수화 번역을 위한 새로운 병렬 데이터셋인 Bangla-SGP를 개발하여 저자원 NLP 과제 해결에 기여함.
수동 주석 및 규칙 기반 생성(RAG) 파이프라인을 통한 데이터 증강 기법을 활용하여 데이터셋의 규모를 확장.
다양한 변환기 기반 모델의 성능을 평가하고, 벵골 수화 번역에 대한 모델의 적합성을 분석.
RWTH-PHOENIX-2014T 벤치마크와의 비교를 통해 모델의 일반화 성능을 평가.
한계점:
논문에서 구체적인 데이터셋 규모에 대한 추가적인 정보 부족.
다양한 모델의 성능을 비교하였으나, 각 모델의 상세 설정 및 하이퍼파라미터에 대한 정보 부족.
성능 평가 지표로 BLEU 점수만 사용되었으며, 다른 평가 지표(예: ROUGE, METEOR)에 대한 고려 부족.
합성 데이터 생성에 사용된 규칙의 상세 내용과 규칙의 일반화 능력에 대한 설명 부족.
👍