Sign In

SynSUM -- Synthetic Benchmark with Structured and Unstructured Medical Records

Created by
  • Haebom
Category
Empty

저자

Paloma Rabaey, Henri Arno, Stefan Heytens, Thomas Demeester

개요

SynSUM은 비정형 임상 기록과 구조화된 배경 변수를 연결하는 합성 데이터셋입니다. 10,000개의 인공 환자 기록으로 구성되며, 각 기록은 표 형태의 변수(증상, 진단, 기저 질환 등)와 호흡기 질환 분야의 허구적인 환자 방문을 기술하는 관련 기록을 포함합니다. 표 형태의 데이터는 베이지안 네트워크를 통해 생성되며, 변수 간의 인과 구조와 조건부 확률은 전문가의 도메인 지식을 기반으로 제안됩니다. GPT-4를 사용하여 표 형태의 데이터를 기반으로 환자의 증상과 추가적인 맥락을 설명하는 임상 기록을 생성합니다. 전문가 평가 연구와 간단한 예측 모델을 통해 생성된 기록의 품질을 평가하고 기준선을 설정합니다. SynSUM은 표 형태의 배경 변수가 존재하는 상황에서의 임상 정보 추출 연구를 촉진하기 위해 설계되었으며, 임상 추론 자동화, 표 및/또는 텍스트 혼란 변수가 존재하는 상황에서의 인과 효과 추정, 다모달 합성 데이터 생성 연구에도 활용될 수 있습니다.

시사점, 한계점

시사점:
표 형태의 배경 변수를 포함하는 임상 정보 추출 연구를 위한 새로운 합성 데이터셋 제공
임상 추론 자동화, 인과 효과 추정, 다모달 합성 데이터 생성 연구에 활용 가능
전문가 도메인 지식을 활용한 데이터 생성으로 현실성 확보
GPT-4를 이용한 합성 기록 생성으로 효율적인 데이터 확보 가능
한계점:
합성 데이터의 한계로 인한 실제 임상 데이터와의 차이 존재 가능성
GPT-4의 성능에 의존적인 데이터 품질
제한된 질병 영역(호흡기 질환)으로 일반화에 대한 제약
전문가 평가 연구의 규모 및 방법론에 대한 추가적인 검토 필요
👍