본 논문은 합성 EHR(Electronic Health Record) 데이터 생성 방법에 대한 범위 분석과 주요 방법들의 벤치마킹을 수행하여 실무자에게 권고안을 제공합니다. 세 개의 학술 데이터베이스를 검색하여 범위 분석을 수행하고, 오픈소스 EHR 데이터셋인 MIMIC-III/IV를 사용하여 방법들을 벤치마킹했습니다. 주요 범주를 포함하는 기존 7가지 방법과 2가지 기준 방법을 구현하고 비교하여 데이터 충실도, 후속 유용성, 개인정보 보호 및 계산 비용에 대한 평가 지표를 사용했습니다. 42개의 연구를 확인하여 5가지 범주로 분류하고, 모든 범주를 포함하는 7가지 오픈소스 방법을 선택하여 MIMIC-III에서 학습시키고, 전이성을 고려하여 MIMIC-III 또는 MIMIC-IV에서 평가했습니다. 그 결과, GAN 기반 방법은 MIMIC-III에서 충실도와 유용성 측면에서 경쟁력 있는 성능을 보였고, 규칙 기반 방법은 개인정보 보호 측면에서 우수한 성능을 보였습니다. MIMIC-IV에서도 유사한 결과가 관찰되었으며, GAN 기반 방법은 충실도 보존 측면에서 기준 방법보다 더 우수한 성능을 보였습니다. 다양한 방법과 평가 지표를 통합하여 여러 방법의 탐색 및 평가를 간소화할 수 있는 Python 패키지 "SynthEHRella"를 제공하며, 방법 선택은 후속 사용 사례에서 평가 지표의 상대적 중요도에 따라 결정됨을 발견하고, 벤치마킹된 방법들 중 선택을 안내하는 의사결정 트리를 제공합니다. 의사결정 트리에 따르면, 훈련 및 테스트 집단 간에 분포 변화가 있을 때 GAN 기반 방법이 우수하며, 그렇지 않을 경우 CorGAN과 MedGAN이 각각 연관 모델링과 예측 모델링에 가장 적합합니다.