대규모 언어 모델(LLM)을 활용한 확장 가능하고 실시간 정신 건강 지원에 대한 관심이 증가하고 있지만, 불안 지원과 같은 민감한 분야에서의 활용은 아직 충분히 연구되지 않았다. 본 연구는 r/Anxiety subreddit의 실제 사용자 게시물을 프롬프트 및 미세 조정에 사용하여 LLM(GPT 및 Llama)의 불안 지원 잠재력에 대한 체계적인 평가를 제시한다. 언어적 품질, 안전성 및 신뢰성, 지원성의 세 가지 주요 기준을 포함하는 혼합 방법론적 평가 프레임워크를 사용하였다. 자연스러운 불안 관련 데이터로 LLM을 미세 조정하면 언어적 품질은 향상되었지만 독성과 편향이 증가하고 정서적 반응성은 감소했다. LLM은 공감 능력이 제한적이었지만, GPT가 전반적으로 더 지원적인 것으로 평가되었다. 미완화 전략 없이 가공되지 않은 소셜 미디어 콘텐츠로 LLM을 미세 조정하는 위험성을 강조한다.