본 논문은 현실적인 합성 전자 건강 기록(EHR) 생성을 위한 새로운 프레임워크인 HiSGT(Hierarchy- and Semantics-Guided Transformer)를 제안합니다. 기존의 방법들이 EHR을 단순한 의료 코드 시퀀스로 취급하는 한계를 극복하기 위해, HiSGT는 임상 코딩 시스템의 계층적 구조와 코드 설명이 제공하는 풍부한 의미적 맥락을 활용합니다. 계층적 그래프를 구성하여 의료 코드 간의 부모-자식 및 형제 관계를 인코딩하고, 그래프 신경망을 사용하여 계층적 정보를 고려한 임베딩을 생성합니다. 이 임베딩은 사전 훈련된 임상 언어 모델(예: ClinicalBERT)에서 추출한 의미적 임베딩과 결합되어 Transformer 기반 생성기가 실제 EHR에 내재된 미묘한 임상 패턴을 더 정확하게 모델링할 수 있도록 합니다. MIMIC-III 및 MIMIC-IV 데이터셋에 대한 실험 결과, HiSGT는 합성 데이터와 실제 환자 기록 간의 통계적 정합성을 크게 향상시키고, 만성 질환 분류와 같은 다운스트림 애플리케이션을 강력하게 지원함을 보여줍니다.