PsychBench: A comprehensive and professional benchmark for evaluating the performance of LLM-assisted psychiatric clinical practice
Created by
Haebom
Category
Empty
저자
Ruoxi Wang, Shuyu Liu, Ling Zhang, Xuequan Zhu, Rui Yang, Xinzhu Zhou, Fei Wu, Zhi Yang, Cheng Jin, Gang Wang
개요
본 논문은 정신과 임상 환경에서 대규모 언어 모델(LLM)의 효능을 평가하기 위한 벤치마킹 시스템인 PsychBench를 제안합니다. 정신과의 임상적 요구와 데이터를 통합하여 16개의 LLM을 종합적으로 정량 평가하고, 프롬프트 디자인, 사고 연쇄 추론, 입력 텍스트 길이, 도메인 특정 지식 미세 조정의 영향을 조사했습니다. 상세한 오류 분석을 통해 기존 모델의 강점과 한계를 파악하고 개선 방향을 제시했습니다. 또한, 60명의 정신과 의사를 대상으로 임상 독자 연구를 수행하여 기존 LLM의 실질적인 이점을 추가로 탐구했습니다. 정량적 및 독자 평가를 통해 기존 모델이 상당한 잠재력을 보이지만, 정신과 임상 실무에서 의사 결정 도구로는 아직 부족하다는 것을 보여줍니다. 보조 도구로서 LLM은 특히 젊은 정신과 의사에게 상당한 지원을 제공하여 업무 효율성과 전반적인 임상 질을 향상시킬 수 있음을 시사합니다. 데이터셋과 평가 프레임워크를 공개하여 연구를 촉진하고 정신과 임상 환경에서 LLM의 응용을 발전시키고자 합니다.
시사점, 한계점
•
시사점:
◦
정신과 임상 환경에서 LLM의 효과적인 평가를 위한 벤치마킹 시스템(PsychBench) 제시.
◦
LLM의 프롬프트 디자인, 사고 연쇄 추론, 입력 길이, 도메인 특화 미세조정 등의 요소가 성능에 미치는 영향 분석.
◦
LLM이 정신과 의사, 특히 젊은 의사의 업무 효율 및 임상 질 향상에 기여할 수 있는 잠재력 확인.