Sign In

PsychBench: A comprehensive and professional benchmark for evaluating the performance of LLM-assisted psychiatric clinical practice

Created by
  • Haebom
Category
Empty

저자

Ruoxi Wang, Shuyu Liu, Ling Zhang, Xuequan Zhu, Rui Yang, Xinzhu Zhou, Fei Wu, Zhi Yang, Cheng Jin, Gang Wang

개요

본 논문은 정신과 임상 환경에서 대규모 언어 모델(LLM)의 효능을 평가하기 위한 벤치마킹 시스템인 PsychBench를 제안합니다. 정신과의 임상적 요구와 데이터를 통합하여 16개의 LLM을 종합적으로 정량 평가하고, 프롬프트 디자인, 사고 연쇄 추론, 입력 텍스트 길이, 도메인 특정 지식 미세 조정의 영향을 조사했습니다. 상세한 오류 분석을 통해 기존 모델의 강점과 한계를 파악하고 개선 방향을 제시했습니다. 또한, 60명의 정신과 의사를 대상으로 임상 독자 연구를 수행하여 기존 LLM의 실질적인 이점을 추가로 탐구했습니다. 정량적 및 독자 평가를 통해 기존 모델이 상당한 잠재력을 보이지만, 정신과 임상 실무에서 의사 결정 도구로는 아직 부족하다는 것을 보여줍니다. 보조 도구로서 LLM은 특히 젊은 정신과 의사에게 상당한 지원을 제공하여 업무 효율성과 전반적인 임상 질을 향상시킬 수 있음을 시사합니다. 데이터셋과 평가 프레임워크를 공개하여 연구를 촉진하고 정신과 임상 환경에서 LLM의 응용을 발전시키고자 합니다.

시사점, 한계점

시사점:
정신과 임상 환경에서 LLM의 효과적인 평가를 위한 벤치마킹 시스템(PsychBench) 제시.
LLM의 프롬프트 디자인, 사고 연쇄 추론, 입력 길이, 도메인 특화 미세조정 등의 요소가 성능에 미치는 영향 분석.
LLM이 정신과 의사, 특히 젊은 의사의 업무 효율 및 임상 질 향상에 기여할 수 있는 잠재력 확인.
PsychBench 데이터셋 및 평가 프레임워크 공개를 통한 후속 연구 촉진.
한계점:
현재의 LLM은 정신과 임상 실무에서 독립적인 의사결정 도구로 사용하기에는 아직 부족.
LLM의 성능 향상을 위한 추가적인 연구 및 개발 필요.
👍