Sign In

CARMA: Comprehensive Automatically-annotated Reddit Mental Health Dataset for Arabic

Created by
  • Haebom
Category
Empty

저자

Saad Mankarious, Ayah Zirikly

개요

본 논문은 전 세계 수백만 명에게 영향을 미치는 정신 건강 장애의 조기 발견의 어려움을 다루며, 특히 자원이 제한적이고 문화적 낙인으로 인해 정신 건강 논의가 억제되는 아랍어 사용 인구를 대상으로 한다. 영어 기반의 정신 건강 감지에 대한 연구는 많지만, 아랍어는 주석 처리된 데이터 세트 부족으로 인해 연구가 부족했다. 본 논문은 아랍어 Reddit 게시물에 대한 최초의 자동 주석 처리된 대규모 데이터 세트인 CARMA를 제시한다. 이 데이터 세트는 불안, 자폐증, 우울증과 같은 6가지 정신 건강 상태와 대조군을 포함한다. CARMA는 규모와 다양성 면에서 기존 리소스를 능가한다. 또한, 사용자 간의 어휘 및 의미론적 차이에 대한 질적, 양적 분석을 수행하여 특정 정신 건강 상태의 언어적 마커에 대한 통찰력을 제공한다. 다양한 모델을 사용하여 분류 실험을 수행하여 아랍어와 같이 연구가 부족한 언어에서 정신 건강 감지를 발전시킬 수 있는 가능성을 보여준다.

시사점, 한계점

시사점:
아랍어 기반 정신 건강 연구를 위한 대규모 데이터 세트 CARMA 제공.
아랍어 사용자들의 정신 건강 상태를 나타내는 언어적 특징 분석.
다양한 머신러닝 모델을 활용한 정신 건강 상태 분류 실험 수행 및 유효성 검증.
아랍어와 같은 소외된 언어에서의 정신 건강 감지 발전에 대한 가능성 제시.
한계점:
데이터 수집 및 주석 과정에서의 편향 가능성.
Reddit 게시물 데이터의 특성상 일반화의 어려움.
제시된 모델의 성능 개선 및 추가적인 연구 필요.
👍