본 논문은 환자 진료에서 중요하지만 충분히 연구되지 않은 퇴원 교육에 초점을 맞추고 있습니다. 기존의 대규모 언어 모델(LLM) 벤치마크는 진료 중 진단 추론에 중점을 두지만, 진료 후 환자 지원 능력은 평가하지 않습니다. 이에 본 논문에서는 퇴원 교육자 역할을 하는 LLM의 능력을 평가하기 위한 새로운 벤치마크인 DischargeSim을 제시합니다. DischargeSim은 다양한 심리사회적 특성(건강 정보 이해력, 교육 수준, 감정 등)을 가진 LLM 기반 DoctorAgent와 PatientAgent 간의 진료 후 다회차 대화를 시뮬레이션합니다. 상호 작용은 6가지 임상적으로 기반한 퇴원 주제에 걸쳐 구조화되며, 자동 및 LLM-as-judge 평가를 통한 대화 품질, 자유 형식 요약 및 구조화된 AHRQ 체크리스트를 포함한 개인화된 문서 생성, 후속 다지선다형 시험을 통한 환자 이해도라는 세 가지 축을 따라 평가됩니다. 18개의 LLM에 대한 실험 결과, 퇴원 교육 능력에 상당한 차이가 있으며, 환자 특성에 따라 성능이 크게 달라지는 것으로 나타났습니다. 특히, 모델 크기가 항상 더 나은 교육 결과를 가져오는 것은 아니며, 전략 사용 및 콘텐츠 우선 순위 설정의 상충 관계를 보여줍니다. DischargeSim은 진료 후 임상 교육에서 LLM을 벤치마킹하고 공평하고 개인화된 환자 지원을 촉진하기 위한 첫걸음을 제공합니다.