Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Evaluating Large Language Models in Crisis Detection: A Real-World Benchmark from Psychological Support Hotlines

Created by
  • Haebom

저자

Guifeng Deng, Shuyin Rao, Tianyu Lin, Anlu Dai, Pan Wang, Junyi Xie, Haidong Song, Ke Zhao, Dongwu Xu, Zhengdong Cheng, Tao Li, Haiteng Jiang

개요

본 논문은 증가하는 수요로 어려움을 겪는 심리적 지원 핫라인에 대규모 언어 모델(LLM)을 활용하는 것을 다룬다. Hangzhou 심리 지원 핫라인의 540개 주석이 달린 녹취록으로 구성된 PsyCrisisBench 벤치마크를 소개하며, 기분 상태 인식, 자살 생각 탐지, 자살 계획 확인, 위험 평가 등 4가지 과제에 대한 64개의 LLM(GPT, Claude, Gemini, Llama, Qwen, DeepSeek 등 15개 계열)을 제로샷, 퓨샷, 파인튜닝 방식으로 평가했다. 평가 지표는 F1-score를 사용했으며, Welch's t-tests를 통해 통계적 비교를 수행했다. LLM은 자살 생각 탐지(F1=0.880), 자살 계획 확인(F1=0.779), 위험 평가(F1=0.907)에서 높은 성능을 보였으며, 퓨샷 및 파인튜닝을 통해 성능이 향상되었다. 기분 상태 인식은 (최대 F1=0.709) 어려움을 보였는데, 이는 음성 단서의 부재와 모호성 때문일 가능성이 있다. 15억 파라미터의 파인튜닝된 모델(Qwen2.5-1.5B)이 기분 및 자살 생각 탐지에서 더 큰 모델보다 성능이 우수했다. QwQ-32B와 같은 오픈소스 모델은 대부분의 과제에서 클로즈드소스 모델과 비슷한 성능을 보였으나(p>0.3), 클로즈드소스 모델은 기분 탐지에서 우위를 유지했다(p=0.007). 성능은 특정 지점까지 크기에 따라 확장되었으며, 양자화(AWQ)는 GPU 메모리를 70% 줄이고 F1 점수 저하는 최소화했다. LLM은 특히 파인튜닝을 통해 구조화된 심리적 위기 평가에 상당한 가능성을 보여주었지만, 기분 인식은 여전히 제한적이다. 오픈소스와 클로즈드소스 모델 간의 격차 축소와 효율적인 양자화는 실현 가능한 통합을 시사한다. PsyCrisisBench는 정신 건강 분야에서 모델 개발과 윤리적 배포를 위한 강력한 평가 프레임워크를 제공한다.

시사점, 한계점

시사점:
LLM이 심리적 위기 평가, 특히 자살 생각 탐지, 자살 계획 확인, 위험 평가에서 높은 정확도를 보임.
파인튜닝을 통해 LLM의 성능을 향상시킬 수 있음.
오픈소스 LLM이 클로즈드소스 LLM과 비교하여 성능 격차가 줄어들고 있음.
양자화 기술을 통해 LLM의 효율성을 높일 수 있음.
PsyCrisisBench는 LLM 기반 심리적 위기 개입 시스템 개발 및 평가에 유용한 벤치마크임.
한계점:
기분 상태 인식 과제에서 LLM의 성능이 상대적으로 낮음 (음성 단서 부재 및 모호성 때문으로 추정).
LLM의 성능이 모델 크기에 따라 선형적으로 증가하지 않음.
실제 핫라인 환경에서의 LLM 성능 검증이 필요함.
LLM의 윤리적 사용 및 책임 문제에 대한 고려가 필요함.
👍