DischargeSim이라는 새로운 벤치마크를 소개합니다. 이 벤치마크는 대규모 언어 모델(LLM)이 환자 방문 후 개인 맞춤형 퇴원 교육자 역할을 수행하는 능력을 평가합니다. 다양한 심리사회적 프로필(건강 교육 수준, 교육 수준, 감정 등)을 가진 LLM 기반 DoctorAgent와 PatientAgent 간의 방문 후 다중 턴 대화를 시뮬레이션합니다. 상호 작용은 6가지 임상적으로 근거한 퇴원 주제에 걸쳐 구조화되며, 자동 및 LLM-as-judge 평가를 통한 대화 품질, 자유 텍스트 요약 및 구조화된 AHRQ 체크리스트를 포함한 개인화된 문서 생성, 그리고 하류 다중 선택 시험을 통한 환자 이해라는 세 가지 축을 따라 평가됩니다. 18개의 LLM에 대한 실험 결과, 퇴원 교육 능력에는 상당한 차이가 있으며, 환자 프로필에 따라 성능이 크게 달라지는 것으로 나타났습니다. 특히 모델 크기가 항상 더 나은 교육 결과를 가져오는 것은 아니며, 전략 사용과 콘텐츠 우선 순위 설정 간의 상충 관계를 강조합니다. DischargeSim은 방문 후 임상 교육에서 LLM을 벤치마킹하고 공정하고 개인화된 환자 지원을 장려하기 위한 첫걸음입니다.