SynSUM은 비정형 임상 기록과 구조화된 배경 변수를 연결하는 합성 데이터셋입니다. 10,000개의 인공 환자 기록으로 구성되며, 각 기록은 표 형태의 변수(증상, 진단, 기저 질환 등)와 호흡기 질환 분야의 허구적인 환자 방문을 기술하는 관련 기록을 포함합니다. 표 형태의 데이터는 베이지안 네트워크를 통해 생성되며, 변수 간의 인과 구조와 조건부 확률은 전문가의 도메인 지식을 기반으로 제안됩니다. GPT-4를 사용하여 표 형태의 데이터를 기반으로 환자의 증상과 추가적인 맥락을 설명하는 임상 기록을 생성합니다. 전문가 평가 연구와 간단한 예측 모델을 통해 생성된 기록의 품질을 평가하고 기준선을 설정합니다. SynSUM은 표 형태의 배경 변수가 존재하는 상황에서의 임상 정보 추출 연구를 촉진하기 위해 설계되었으며, 임상 추론 자동화, 표 및/또는 텍스트 혼란 변수가 존재하는 상황에서의 인과 효과 추정, 다모달 합성 데이터 생성 연구에도 활용될 수 있습니다.