본 논문은 소셜 미디어 데이터를 활용한 정신 건강 연구의 중요성을 강조하며, 기존 벤치마크 데이터셋의 한계를 극복하기 위해 Reddit에서 수집한 자체 보고 진단을 기반으로 한 새로운 벤치마크 데이터셋인 MindSET을 제시합니다. 이 데이터셋은 1,300만 개 이상의 게시물로 구성되어 있으며, 7가지 정신 건강 상태에 대한 주석이 포함되어 있습니다. 데이터 품질을 위해 엄격한 전처리 단계를 거쳤으며, 언어 분석 및 진단 감지를 위한 실험을 수행하여 기존 벤치마크보다 성능 향상을 보였습니다.