본 논문은 구조화된 전자 건강 기록(EHR) 데이터에 대한 대규모 언어 모델(LLM)의 성능을 평가하기 위한 벤치마크인 EHRStruct를 소개합니다. EHRStruct는 다양한 임상적 요구를 반영하는 11개의 대표적인 작업을 정의하고, 두 개의 널리 사용되는 EHR 데이터 세트에서 파생된 2,200개의 작업별 평가 샘플을 포함합니다. 본 논문은 20개의 LLM을 EHRStruct를 사용하여 평가하고, 입력 형식, 소수 샷 일반화, 미세 조정 전략과 같은 성능에 영향을 미치는 주요 요인을 분석합니다. 또한, 구조화된 데이터 추론을 위한 11개의 최첨단 LLM 기반 개선 방법과 결과를 비교합니다. 연구 결과는 많은 구조화된 EHR 작업이 LLM의 이해 및 추론 능력에 높은 요구를 한다는 것을 나타냅니다. 더 나아가, 최첨단 성능을 달성하는 코드 증강 방법인 EHRMaster를 제안합니다.