본 논문은 언어 모델이 자살 생각, 강간, 가정 폭력, 아동 학대, 성희롱 등과 같은 정신 건강 위기 상황을 감지하는 문제를 다루고 있다. 이를 위해, 다양한 위기 유형을 포괄하고 시간적 레이블을 통합한 다면적 위기 감지 벤치마크인 CRADLE BENCH를 소개한다. 이 벤치마크는 임상의가 주석을 단 600개의 평가 예제, 420개의 개발 예제, 그리고 여러 언어 모델의 과반수 투표 앙상블을 사용하여 자동 레이블링된 약 4,000개의 훈련 예제로 구성된다. 또한, 합의 및 만장일치 앙상블 동의에 의해 정의된 하위 집합에서 6개의 위기 감지 모델을 미세 조정하여 다양한 합의 기준에 따라 훈련된 보완적인 모델을 제공한다.