Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

CRADLE Bench: A Clinician-Annotated Benchmark for Multi-Faceted Mental Health Crisis and Safety Risk Detection

Created by
  • Haebom

저자

Grace Byun, Rebecca Lipschutz, Sean T. Minton, Abigail Lott, Jinho D. Choi

개요

본 논문은 언어 모델이 자살 생각, 강간, 가정 폭력, 아동 학대, 성희롱 등과 같은 정신 건강 위기 상황을 감지하는 문제를 다루고 있다. 이를 위해, 다양한 위기 유형을 포괄하고 시간적 레이블을 통합한 다면적 위기 감지 벤치마크인 CRADLE BENCH를 소개한다. 이 벤치마크는 임상의가 주석을 단 600개의 평가 예제, 420개의 개발 예제, 그리고 여러 언어 모델의 과반수 투표 앙상블을 사용하여 자동 레이블링된 약 4,000개의 훈련 예제로 구성된다. 또한, 합의 및 만장일치 앙상블 동의에 의해 정의된 하위 집합에서 6개의 위기 감지 모델을 미세 조정하여 다양한 합의 기준에 따라 훈련된 보완적인 모델을 제공한다.

시사점, 한계점

7가지 위기 유형을 포괄하는 다면적 위기 감지 벤치마크 제공
시간적 레이블을 최초로 통합
여러 언어 모델의 앙상블을 활용하여 자동 레이블링 품질 향상
합의 기준에 따라 훈련된 보완적인 모델 제공
임상의가 주석을 단 평가 예제 제공
제공된 데이터셋의 규모가 제한적일 수 있음
자동 레이블링의 정확도가 완벽하지 않을 수 있으며, 오류가 포함될 수 있음
다양한 언어 모델 간의 비교 분석이 부족할 수 있음
👍