Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Evaluating Reasoning LLMs for Suicide Screening with the Columbia-Suicide Severity Rating Scale

Created by
  • Haebom

저자

Avinash Patil, Siru Tao, Amardeep Gedhu

개요

본 논문은 대규모 언어 모델(LLM)을 이용한 자살 위험 평가의 가능성을 평가한 연구입니다. Reddit의 r/SuicideWatch와 같은 온라인 플랫폼에서 자살 생각을 표현하고 지지받는 사람들이 AI 시스템에도 자살 생각을 털어놓을 수 있게 됨에 따라, LLM이 컬럼비아 자살 심각도 평가 척도(C-SSRS)를 사용하여 자동화된 자살 위험 평가를 수행할 수 있는지 여부를 평가했습니다. Claude, GPT, Mistral, LLaMA 등 6개의 모델을 사용하여 7단계 심각도 척도(0~6단계)에 걸쳐 게시물을 분류하는 제로샷 성능을 평가한 결과, Claude와 GPT가 인간의 주석과 거의 일치했고, Mistral이 가장 낮은 순서 예측 오차를 달성했습니다. 대부분의 모델은 순서 민감도를 보였으며, 잘못 분류는 일반적으로 인접한 심각도 수준 사이에서 발생했습니다. 또한 혼동 패턴, 잘못 분류 원인 및 윤리적 고려 사항을 분석하여 인간의 감독, 투명성 및 신중한 배포의 중요성을 강조했습니다.

시사점, 한계점

시사점:
LLM이 자살 위험 평가에 활용될 가능성을 보여줌.
특정 LLM (Claude, GPT, Mistral)은 인간의 평가와 상당한 수준으로 일치하는 결과를 보임.
자동화된 시스템을 통한 자살 위험 감지 및 개입의 가능성 제시.
한계점:
모델의 순서 민감도로 인한 인접 단계 간의 오분류 발생.
혼동 패턴 및 오분류 원인에 대한 추가 분석 필요.
윤리적 문제(인간 감독, 투명성, 신중한 배포)의 중요성 강조, 책임있는 AI 활용의 필요성 제기.
제로샷 평가의 한계. 실제 환경 적용 시 추가적인 성능 저하 가능성.
👍