MindEval: Benchmarking Language Models on Multi-turn Mental Health Support

Created by

Haebom

저자

Jose Pombal, Maya D'Eon, Nuno M. Guerreiro, Pedro Henrique Martins, Antonio Farinhas, Ricardo Rei

💡 개요

본 논문은 AI 챗봇을 활용한 정신 건강 지원 시스템의 한계를 극복하기 위해, 실제 치료 대화의 복잡성을 포착하는 새로운 벤치마크인 MindEval을 제안합니다. MindEval은 면허를 가진 임상 심리학자들과 협력하여 개발되었으며, 환자 시뮬레이션 및 LLM 기반 자동 평가를 통해 모델의 성능을 측정합니다. 연구 결과, 최신 LLM들이 전반적으로 어려움을 겪으며, 특히 문제적인 AI 특유의 소통 방식에서 약점을 보였습니다.

🔑 시사점 및 한계

•

정신 건강 지원 챗봇의 개발을 위한 현실적인 벤치마크의 부재를 해결하여, 실제 치료 대화와 유사한 환경에서 LLM의 성능을 평가할 수 있는 프레임워크를 제공했습니다.

•

자동화된 평가 시스템을 통해 모델 간의 비교를 용이하게 하고, 모델의 취약점을 파악하여 개선 방향을 제시했습니다.

•

모델의 규모나 추론 능력만으로는 성능 향상을 보장하지 못하며, 대화의 길이가 길어지거나 환자의 증상이 심해질수록 성능이 저하되는 경향을 보였습니다.

PDF 보기

Made with Slashpage