본 논문은 정신과 진료를 향상시키는 데 있어 대규모 언어 모델(LLM)의 잠재력을 강조하며, 진단 정확도 향상, 임상 문서 간소화, 치료 지원 등의 역할을 제시합니다. 기존의 평가 자원이 작은 임상 인터뷰 코퍼스, 소셜 미디어 게시물 또는 합성 대화에 의존하는 한계를 지적하며, 임상적 타당성을 제한하고 진단 추론의 복잡성을 제대로 포착하지 못한다고 비판합니다. 이를 해결하기 위해, 권위 있는 전문가가 검증한 정신과 교과서 및 사례집을 기반으로 구축된 엄격하게 큐레이션된 벤치마크인 PsychiatryBench를 소개합니다. PsychiatryBench는 진단 추론, 치료 계획, 장기적인 추적 관찰, 관리 계획, 임상 접근, 순차적 사례 분석, 객관식/확장 매칭 형식 등 11개의 다양한 질문 응답 작업을 포함하며, 총 5,188개의 전문가 주석 항목으로 구성됩니다. Google Gemini, DeepSeek, Sonnet 4.5, GPT 5와 같은 최첨단 LLM과 MedGemma와 같은 주요 오픈 소스 의료 모델을 평가했습니다. 전통적인 지표와 "LLM-as-judge" 유사성 점수 프레임워크를 사용하여 평가한 결과, 특히 다단계 후속 조치 및 관리 작업에서 임상적 일관성과 안전성에 상당한 격차가 발견되었습니다. 이 연구는 정신 건강 응용 분야에서 LLM 성능을 벤치마킹하고 개선하기 위한 모듈식 확장 가능한 플랫폼을 제공합니다.