Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

PsychBench: A comprehensive and professional benchmark for evaluating the performance of LLM-assisted psychiatric clinical practice

Created by
  • Haebom

저자

Shuyu Liu, Ruoxi Wang, Ling Zhang, Xuequan Zhu, Rui Yang, Xinzhu Zhou, Fei Wu, Zhi Yang, Cheng Jin, Gang Wang

개요

본 논문은 정신과 임상 환경에서 대규모 언어 모델(LLM)의 효능을 평가하기 위한 벤치마킹 시스템인 PsychBench를 제안합니다. 16개의 LLM을 PsychBench를 사용하여 정량적으로 평가하고, 프롬프트 디자인, 사고 연쇄 추론, 입력 텍스트 길이, 도메인 특정 지식 미세 조정의 영향을 조사했습니다. 상세한 오류 분석을 통해 기존 모델의 강점과 한계를 파악하고 개선 방향을 제시했습니다. 또한, 60명의 정신과 의사를 대상으로 한 임상 독자 연구를 통해 기존 LLM의 실질적인 이점을 추가적으로 탐구했습니다. 정량적 평가와 독자 평가를 통해 기존 모델이 상당한 잠재력을 보이지만, 아직 정신과 임상 실무에서 의사결정 도구로는 부적절함을 보였습니다. 보조 도구로서 LLM은 특히 젊은 정신과 의사에게 상당한 지원을 제공하여 업무 효율성과 전반적인 임상 질을 향상시킬 수 있음을 보였습니다. 데이터셋과 평가 프레임워크를 공개하여 향후 연구를 촉진하고자 합니다.

시사점, 한계점

시사점:
정신과 임상 환경에서 LLM의 효능을 평가하기 위한 벤치마킹 시스템 PsychBench 개발
16개 LLM의 성능 비교 및 다양한 요소(프롬프트 디자인, 사고 연쇄 추론 등)의 영향 분석
LLM이 정신과 의사, 특히 젊은 의사의 업무 효율성 및 임상 질 향상에 도움이 될 수 있음을 제시
PsychBench 데이터셋 및 평가 프레임워크 공개를 통한 연구 활성화 기여
한계점:
기존 LLM이 정신과 임상 실무에서 의사결정 도구로 사용되기에는 아직 부족함
LLM의 실제 임상 적용을 위한 추가적인 연구 및 개발 필요
👍