Transformers and Ensemble methods: A solution for Hate Speech Detection in Arabic languages
Created by
Haebom
저자
Angel Felipe Magnossao de Paula, Imene Bensalem, Paolo Rosso, Wajdi Zaghouani
개요
본 논문은 2022 CERIST NLP 챌린지의 하위 과제 중 하나인 증오 표현 감지 공유 과제에 대한 참여를 설명합니다. 6개의 Transformer 모델과 2가지 앙상블 접근 방식을 사용하여 성능을 평가했습니다. 5-fold cross validation 시나리오에서 다수결 기반 앙상블 접근 방식이 훈련 세트에서 최상의 결과를 얻었으며, 테스트 세트 평가 결과 F1-score는 0.60, 정확도는 0.86을 기록했습니다.
시사점, 한계점
•
시사점: 다수결 기반 앙상블 학습이 증오 표현 감지에서 효과적임을 보여줌. Transformer 모델을 활용한 증오 표현 감지 성능에 대한 기준 제시.
•
한계점: F1-score 0.60, 정확도 0.86은 상대적으로 낮은 성능을 나타냄. 다양한 앙상블 방법론에 대한 추가적인 실험 필요. 다른 언어나 도메인에 대한 일반화 성능에 대한 검증 부족.