본 연구는 20억에서 4050억 이상의 매개변수를 가진 33개의 대규모 언어 모델(LLM)을 대상으로, 소셜 미디어 데이터를 활용하여 정신 건강 분야의 주요 과제를 수행하는 능력을 종합적으로 평가한다. 6개의 데이터 세트를 사용하여 바이너리 장애 감지, 장애 심각도 평가, 정신과 지식 평가의 세 가지 과제에 대해 제로샷(ZS) 및 퓨샷(FS) 학습 능력을 평가했다. GPT-4, Llama 3, Claude, Gemma, Gemini, Phi-3와 같은 모델이 평가되었으며, GPT-4와 Llama 3는 바이너리 장애 감지에서 최대 85%의 정확도를 보였고, FS 학습은 Phi-3-mini 모델의 평균 절대 오차(MAE)를 1.3점 줄이는 등 장애 심각도 평가를 향상시켰다. Llama 3.1 405b 모델은 정신과 지식 평가에서 91.2%의 정확도를 보였고, 프롬프트 엔지니어링이 과제 전반에서 성능 향상에 중요한 역할을 했다.