본 논문은 증가하는 수요로 어려움을 겪는 심리적 지원 핫라인에 대규모 언어 모델(LLM)을 활용하는 것을 다룬다. Hangzhou 심리 지원 핫라인의 540개 주석이 달린 녹취록으로 구성된 PsyCrisisBench 벤치마크를 소개하며, 기분 상태 인식, 자살 생각 탐지, 자살 계획 확인, 위험 평가 등 4가지 과제에 대한 64개의 LLM(GPT, Claude, Gemini, Llama, Qwen, DeepSeek 등 15개 계열)을 제로샷, 퓨샷, 파인튜닝 방식으로 평가했다. 평가 지표는 F1-score를 사용했으며, Welch's t-tests를 통해 통계적 비교를 수행했다. LLM은 자살 생각 탐지(F1=0.880), 자살 계획 확인(F1=0.779), 위험 평가(F1=0.907)에서 높은 성능을 보였으며, 퓨샷 및 파인튜닝을 통해 성능이 향상되었다. 기분 상태 인식은 (최대 F1=0.709) 어려움을 보였는데, 이는 음성 단서의 부재와 모호성 때문일 가능성이 있다. 15억 파라미터의 파인튜닝된 모델(Qwen2.5-1.5B)이 기분 및 자살 생각 탐지에서 더 큰 모델보다 성능이 우수했다. QwQ-32B와 같은 오픈소스 모델은 대부분의 과제에서 클로즈드소스 모델과 비슷한 성능을 보였으나(p>0.3), 클로즈드소스 모델은 기분 탐지에서 우위를 유지했다(p=0.007). 성능은 특정 지점까지 크기에 따라 확장되었으며, 양자화(AWQ)는 GPU 메모리를 70% 줄이고 F1 점수 저하는 최소화했다. LLM은 특히 파인튜닝을 통해 구조화된 심리적 위기 평가에 상당한 가능성을 보여주었지만, 기분 인식은 여전히 제한적이다. 오픈소스와 클로즈드소스 모델 간의 격차 축소와 효율적인 양자화는 실현 가능한 통합을 시사한다. PsyCrisisBench는 정신 건강 분야에서 모델 개발과 윤리적 배포를 위한 강력한 평가 프레임워크를 제공한다.