Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

PsychiatryBench: A Multi-Task Benchmark for LLMs in Psychiatry

Created by
  • Haebom
Category
Empty

저자

Aya E. Fouda, Abdelrahamn A. Hassan, Radwa J. Hanafy, Mohammed E. Fouda

개요

본 논문은 정신과 진료를 향상시키는 데 있어 대규모 언어 모델(LLM)의 잠재력을 강조하며, 진단 정확도 향상, 임상 문서 간소화, 치료 지원 등의 역할을 제시합니다. 기존의 평가 자원이 작은 임상 인터뷰 코퍼스, 소셜 미디어 게시물 또는 합성 대화에 의존하는 한계를 지적하며, 임상적 타당성을 제한하고 진단 추론의 복잡성을 제대로 포착하지 못한다고 비판합니다. 이를 해결하기 위해, 권위 있는 전문가가 검증한 정신과 교과서 및 사례집을 기반으로 구축된 엄격하게 큐레이션된 벤치마크인 PsychiatryBench를 소개합니다. PsychiatryBench는 진단 추론, 치료 계획, 장기적인 추적 관찰, 관리 계획, 임상 접근, 순차적 사례 분석, 객관식/확장 매칭 형식 등 11개의 다양한 질문 응답 작업을 포함하며, 총 5,188개의 전문가 주석 항목으로 구성됩니다. Google Gemini, DeepSeek, Sonnet 4.5, GPT 5와 같은 최첨단 LLM과 MedGemma와 같은 주요 오픈 소스 의료 모델을 평가했습니다. 전통적인 지표와 "LLM-as-judge" 유사성 점수 프레임워크를 사용하여 평가한 결과, 특히 다단계 후속 조치 및 관리 작업에서 임상적 일관성과 안전성에 상당한 격차가 발견되었습니다. 이 연구는 정신 건강 응용 분야에서 LLM 성능을 벤치마킹하고 개선하기 위한 모듈식 확장 가능한 플랫폼을 제공합니다.

시사점, 한계점

시사점:
정신과 진료에 LLM을 적용하기 위한 새로운 벤치마크, PsychiatryBench를 제시하여, 모델 평가의 정확성을 높임.
다양한 LLM의 성능을 평가하고, 임상 일관성 및 안전성 측면에서 개선의 여지가 있음을 발견.
정신 건강 분야에서 LLM의 성능을 향상시키기 위한 맞춤형 모델 튜닝 및 강력한 평가 패러다임의 필요성을 강조.
LLM의 정신 건강 응용 분야에서 활용 가능성을 보여줌.
한계점:
논문에 구체적인 한계점이 명시적으로 언급되지 않음.
👍