Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

BARD10: A New Benchmark Reveals Significance of Bangla Stop-Words in Authorship Attribution

Created by
  • Haebom
Category
Empty

저자

Abdullah Muhammad Moosa (Department of Mechatronics & Industrial Engineering, Chittagong University of Engineering & Technology, Chittagong 4349, Bangladesh), Nusrat Sultana (Department of Mechatronics & Industrial Engineering, Chittagong University of Engineering & Technology, Chittagong 4349, Bangladesh), Mahdi Muhammad Moosa (Department of Mathematics & Natural Sciences, Brac University, Dhaka 1212, Bangladesh), Md. Miraiz Hossain (Department of Mechatronics & Industrial Engineering, Chittagong University of Engineering & Technology, Chittagong 4349, Bangladesh)

개요

본 연구는 10명의 작가로 구성된 새로운 균형 잡힌 벤치마크 코퍼스 BARD10(Bangla Authorship Recognition Dataset of 10 authors)을 소개하고, 고전 및 딥 러닝 모델 전반에 걸쳐 불용어 제거의 영향을 체계적으로 분석하여 Bangla 불용어의 스타일적 중요성을 밝히는 Bangla 저작권 귀속에 대한 포괄적인 조사를 제시합니다. BARD10은 10명의 현대 작가의 Bangla 블로그 및 의견 산문을 큐레이션한 코퍼스이며, SVM(Support Vector Machine), Bangla BERT(Bidirectional Encoder Representations from Transformers), XGBoost 및 MLP(Multilayer Perception)의 4가지 대표적인 분류기를 BARD10 및 벤치마크 코퍼스 BAAD16(Bangla Authorship Attribution Dataset of 16 authors)에 대해 통일된 전처리를 사용하여 체계적으로 평가합니다. 모든 데이터 세트에서 고전적인 TF-IDF + SVM 베이스라인이 BAAD16에서 매크로 F1 점수 0.997, BARD10에서 0.921을 달성하여 더 나은 성능을 보였고, Bangla BERT는 최대 5점까지 뒤쳐졌습니다. 본 연구는 BARD10 작가가 불용어 제거에 매우 민감한 반면, BAAD16 작가는 비교적 강세를 유지하며 장르별 불용어 시그니처 의존성을 강조한다는 것을 밝혀냈습니다. 오류 분석 결과, 빈도가 높은 구성 요소가 저자 시그니처를 전달하며, 이는 트랜스포머 모델에 의해 감소하거나 줄어들었습니다. 세 가지 통찰력이 확인되었습니다: Bangla 불용어는 필수적인 스타일 지표 역할을 합니다; 정밀하게 조정된 ML 모델은 짧은 텍스트 제한 내에서 효과적임을 증명합니다; BARD10은 공식 문학과 현대 웹 대화를 연결하여 향후 장문맥 또는 도메인 적응형 트랜스포머를 위한 재현 가능한 벤치마크를 제공합니다.

시사점, 한계점

Bangla 불용어가 스타일적 지표로서 중요하다는 점을 밝힘.
ML 모델은 짧은 텍스트 환경에서 효과적인 성능을 보임.
BARD10은 공식 문학과 현대 웹 대화를 연결하는 벤치마크를 제공함.
트랜스포머 모델이 고빈도 구성 요소의 저자 시그니처를 잘 포착하지 못하는 경향이 있음.
BARD10 작가들은 불용어 제거에 민감하며, BAAD16 작가들은 상대적으로 강함 (장르 의존성).
👍