AI 챗봇을 통한 정신 건강 지원에 대한 수요가 증가하고 있지만, 아첨이나 과도한 긍정, 부적응적인 믿음 강화와 같은 제한 사항이 존재한다. 더 나은 시스템 구축의 핵심적인 어려움은 실제 치료적 상호작용의 복잡성을 포착하는 벤치마크의 부족이다. 이 논문에서는 실제적인, 다중 턴 정신 건강 치료 대화에서 언어 모델을 자동으로 평가하기 위해 박사 학위 소지 임상 심리학자들과 협력하여 설계된 MindEval 프레임워크를 제시한다. 환자 시뮬레이션과 LLM을 이용한 자동 평가를 통해, 이 프레임워크는 완전히 자동화되고 모델에 구애받지 않는 설계를 통해 게임에 대한 저항과 재현 가능성의 균형을 맞춘다. 연구에서는 시뮬레이션된 환자의 현실성을 인간이 생성한 텍스트에 대해 정량적으로 검증하고, 자동 평가와 인간 전문가 판단 간의 강한 상관관계를 입증한다. 또한, 12개의 최첨단 LLM을 평가하고, 모든 모델이 평균 6점 만점에 4점 미만을 기록하며 고군분투하는 것을 보여준다. 특히, 문제성 있는 AI 특정 의사 소통 패턴에 약점을 보인다. 추론 능력과 모델 규모가 더 나은 성능을 보장하지 않으며, 더 긴 상호작용이나 심각한 증상을 가진 환자를 지원할 때 시스템의 성능이 저하된다는 점을 발견했다. 모든 코드, 프롬프트 및 인간 평가 데이터를 공개한다.