SimSUM은 호흡기 질환 분야의 10,000개 시뮬레이션 환자 기록으로 구성된 새로운 벤치마크 데이터셋입니다. 베이지안 네트워크를 이용하여 생성된 구조화된 배경 변수(증상, 진단, 기저 질환 등)와 비구조화된 임상 기록(GPT-4o에 의해 생성된 임상 노트)을 연결합니다. 임상 노트에는 스팬 수준의 증상 언급이 주석으로 달려있습니다. 이 데이터셋은 표 형태의 배경 변수가 존재하는 환경에서의 임상 정보 추출 연구를 지원하기 위해 주로 설계되었으며, 임상 추론 자동화, 표 및/또는 텍스트 혼란 변수 존재 하의 인과 효과 추정, 다중 모드 합성 데이터 생성 연구에도 활용될 수 있습니다. 하지만 임상 의사결정 지원 시스템이나 제품 수준 모델 훈련에는 적합하지 않습니다.