VERA-MH: Reliability and Validity of an Open-Source AI Safety Evaluation in Mental Health
Created by
Haebom
Category
Empty
저자
Kate H. Bentley, Luca Belli, Adam M. Chekroud, Emily J. Ward, Emily R. Dworkin, Emily Van Ark, Kelly M. Johnston, Will Alexander, Millard Brown, Matt Hawrilenko
💡 개요
본 연구는 정신 건강 분야에서 생성형 AI 챗봇의 안전성을 평가하기 위해 제안된 VERA-MH(Validation of Ethical and Responsible AI in Mental Health) 평가 도구의 임상적 타당성과 신뢰성을 검증합니다. LLM 기반 사용자와 AI 챗봇 간의 대화 시뮬레이션 후, 정신 건강 전문가들이 안전성 및 사용자 현실성을 평가했으며, LLM 기반 평가자와도 비교 분석했습니다. 연구 결과, VERA-MH는 자살 위험 탐지 및 대응과 관련하여 임상적 타당성과 신뢰성을 갖춘 자동화된 AI 안전성 평가 도구로서의 가능성을 입증했습니다.
🔑 시사점 및 한계
•
VERA-MH는 정신 건강 분야 AI 챗봇의 안전성 평가에 대한 임상적 타당성과 신뢰성을 입증하여, 보다 안전하고 책임감 있는 AI 개발 및 활용의 기반을 마련합니다.
•
LLM 기반 평가자가 임상 전문가들의 합의된 평가와 높은 수준의 일치도를 보여, 대규모 AI 안전성 평가를 자동화할 수 있는 잠재력을 시사합니다.
•
본 연구는 VERA-MH의 일반화 및 견고성에 대한 추가 연구가 필요하며, 실제 사용자 시나리오 및 다양한 정신 건강 문제에 대한 적용 범위 확장 연구가 요구됩니다.