본 논문은 전 세계 수백만 명에게 영향을 미치는 정신 건강 장애의 조기 발견의 어려움을 다루며, 특히 자원이 제한적이고 문화적 낙인으로 인해 정신 건강 논의가 억제되는 아랍어 사용 인구를 대상으로 한다. 영어 기반의 정신 건강 감지에 대한 연구는 많지만, 아랍어는 주석 처리된 데이터 세트 부족으로 인해 연구가 부족했다. 본 논문은 아랍어 Reddit 게시물에 대한 최초의 자동 주석 처리된 대규모 데이터 세트인 CARMA를 제시한다. 이 데이터 세트는 불안, 자폐증, 우울증과 같은 6가지 정신 건강 상태와 대조군을 포함한다. CARMA는 규모와 다양성 면에서 기존 리소스를 능가한다. 또한, 사용자 간의 어휘 및 의미론적 차이에 대한 질적, 양적 분석을 수행하여 특정 정신 건강 상태의 언어적 마커에 대한 통찰력을 제공한다. 다양한 모델을 사용하여 분류 실험을 수행하여 아랍어와 같이 연구가 부족한 언어에서 정신 건강 감지를 발전시킬 수 있는 가능성을 보여준다.