심장 초음파 보고서를 기반으로 한 새로운 질의응답(QA) 데이터셋을 소개합니다. MIMIC-IV 데이터베이스에서 추출한 771,244개의 QA 쌍으로 구성되어 있으며, 다양한 심장 이상 및 중증도를 다룹니다. 오픈소스 및 생의학 특화 모델을 포함한 대규모 언어 모델(LLM)을 제로샷 평가에, 클로즈드소스 모델을 제로샷 및 쓰리샷 평가에 사용하여 비교 분석했습니다. LLM 미세조정이 다양한 QA 지표에서 성능을 향상시킨다는 것을 확인했습니다. 최고 성능 모델에 대한 임상의의 질적 평가를 통해 응답의 정확성을 평가했습니다. 또한, 다양한 사회적 건강 결정 요인에 따른 LLM의 편향-성능 상관관계를 평가하기 위해 세부적인 공정성 감사를 수행했습니다. 임상의의 심장 감별 진단 지원을 목표로 하며, 이를 통해 의료진의 업무 부담을 줄이고 환자 치료에 집중할 수 있도록 지원하는 LLM AI 에이전트를 위한 벤치마크를 구축하고자 합니다.