Political Leaning and Politicalness Classification of Texts
Created by
Haebom
저자
Matous Volf (DELTA High school of computer science and economics, Pardubice, Czechia), Jakub Simko (Kempelen Institute of Intelligent Technologies, Bratislava, Slovakia)
개요
본 논문은 트랜스포머 모델을 이용하여 텍스트의 정치적 성향과 정치성을 자동으로 분류하는 문제를 다룬다. 기존의 데이터셋과 모델들을 종합적으로 검토하여 현재 접근 방식들이 분리된 솔루션을 생성하고 분포 외 텍스트에 대해 성능이 저조하다는 점을 발견하였다. 이러한 한계를 해결하기 위해, 정치적 성향 분류를 위한 12개의 데이터셋을 결합하여 다양한 데이터셋을 만들고, 18개의 기존 데이터셋을 적절한 레이블로 확장하여 정치성을 위한 새로운 데이터셋을 생성하였다. leave-one-in과 leave-one-out 방법론을 사용한 광범위한 벤치마킹을 통해 기존 모델의 성능을 평가하고 일반화 능력이 향상된 새로운 모델을 훈련시켰다.
시사점, 한계점
•
시사점: 다양한 데이터셋을 통합하여 기존 모델의 일반화 성능 향상 및 새로운 모델 개발에 기여. leave-one-in 및 leave-one-out 방법론을 통한 객관적인 성능 평가 제시. 정치적 텍스트 분류 연구에 대한 종합적인 분석 제공.
•
한계점: 사용된 데이터셋의 편향성에 대한 명확한 검토 부족 가능성. 새롭게 생성된 데이터셋의 품질 및 대표성에 대한 추가적인 분석 필요. 특정 언어 또는 지역에 편중된 데이터셋 사용으로 인한 일반화 능력 저하 가능성.