AI 챗봇을 통한 정신 건강 지원에 대한 수요가 증가하고 있지만, 아첨이나 과도한 긍정, 부적응적인 믿음의 강화와 같은 몇 가지 제한 사항이 존재한다. 개선된 시스템 개발의 핵심적인 장애물은 실제 치료적 상호 작용의 복잡성을 포착하는 벤치마크의 부족이다. 이 연구에서는 실제적인 다중 턴 정신 건강 치료 대화에서 언어 모델을 자동으로 평가하기 위해 박사급 면허 임상 심리학자와 협력하여 설계된 MindEval 프레임워크를 제시한다. 환자 시뮬레이션과 LLM을 통한 자동 평가를 통해, 이 프레임워크는 완전히 자동화된 모델 불가지론적 설계를 통해 게임에 대한 저항과 재현 가능성의 균형을 맞춘다. 연구진은 인간이 생성한 텍스트에 대해 시뮬레이션된 환자의 현실성을 정량적으로 검증하고, 자동 판단과 인간 전문가 판단 간의 강한 상관관계를 입증한다. 12개의 최첨단 LLM을 평가한 결과, 모든 모델이 평균 6점 만점에 4점 미만을 기록하며 어려움을 겪는 것으로 나타났으며, 특히 문제적인 AI 특유의 의사 소통 패턴에 취약했다. 추론 능력과 모델 크기는 더 나은 성능을 보장하지 않았고, 더 긴 상호 작용이나 심각한 증상을 가진 환자를 지원할 때 시스템 성능이 저하되었다. 모든 코드, 프롬프트 및 인간 평가 데이터를 공개한다.