Sign In

Dataset Creation and Baseline Models for Sexism Detection in Hausa

Created by
  • Haebom
Category
Empty

저자

Fatima Adam Muhammad, Shamsuddeen Muhammad Hassan, Isa Inuwa-Dutse

개요

본 연구는 온라인 플랫폼에서 젠더 불평등과 사회적 배제를 심화시키는 혐오 발언을 탐지하고 완화하기 위한 전략의 필요성을 강조하며, 특히 언어 자원이 부족한 저자원 언어 환경에서의 혐오 발언 탐지의 어려움을 지적합니다. 이 연구에서는 하우사어를 대상으로 한 최초의 혐오 발언 탐지 데이터셋을 개발하고, 사용자 연구를 통해 문화적 뉘앙스와 언어적 표현을 탐구했습니다. 또한, 전통적인 머신러닝 모델과 사전 훈련된 다국어 모델을 활용하여 소수 샷 학습의 효과를 평가했습니다. 결과적으로 문화적 뉘앙스 포착의 어려움과 오탐의 경향을 확인했습니다.

시사점, 한계점

시사점:
하우사어 혐오 발언 탐지 데이터셋 구축을 통해 저자원 언어 환경에서의 혐오 발언 탐지 연구의 기반을 마련함.
사용자 연구를 통해 문화적 뉘앙스와 언어적 표현에 대한 이해를 높이고, 모델 개발에 반영할 수 있는 인사이트를 제공함.
전통적인 머신러닝 모델과 사전 훈련된 다국어 모델을 비교하여 소수 샷 학습의 가능성을 탐색함.
한계점:
문화적 뉘앙스와 표현의 다양성으로 인해 오탐이 발생할 가능성이 높음.
특정 표현이나 관용어구와 같은 문화적 맥락을 파악하는 데 어려움이 있음.
소수 샷 학습의 효과가 제한적일 수 있음.
👍