심장 초음파 보고서를 기반으로 하는 새로운 질의응답(QA) 데이터셋을 소개합니다. 이 데이터셋은 심장 질환의 다양한 이상 및 중증도를 다루는 771,244개의 QA 쌍으로 구성되어 심장학 분야의 QA 시스템을 향상시키도록 특별히 설계되었습니다. 오픈 소스 및 생의학 특화 모델을 포함한 대규모 언어 모델(LLM)을 제로샷 평가에, 클로즈드 소스 모델을 제로샷 및 쓰리샷 평가에 비교합니다. 결과는 LLM의 미세 조정이 다양한 QA 지표에서 성능을 향상시킨다는 것을 보여주며, 데이터셋의 가치를 확인합니다. 임상의는 또한 최고 성능 모델을 정성적으로 평가하여 LLM 응답의 정확성을 평가합니다. 또한 다양한 사회적 건강 결정 요인에 걸쳐 LLM의 편향-성능 트레이드오프를 평가하기 위해 세분화된 공정성 감사를 수행합니다. 목표는 임상의의 심장 감별 진단 지원을 목표로 하는 LLM AI 에이전트에 대한 벤치마크를 설정하여 임상의의 업무 부담을 줄이고 의료 전문가가 환자 치료에 더 집중할 수 있도록 하는 것입니다.