본 논문은 환자의 주호소(CC), 현병력(HPI), 과거력, 가족력, 사회력(PFSH)과 관련된 의료 이력 개체(MHEs) 추출을 통해 자유 텍스트 형태의 임상 노트를 표준화된 EHR로 구조화하여 의료 서비스 연속성, 의료 코딩, 품질 지표 등 후속 작업을 간소화하는 방법을 연구합니다. 이를 위해 7개의 최첨단 임상 대규모 언어 모델(cLLMs)을 미세 조정하여 61개의 외래 환자 관련 임상 노트(1,449개의 MHEs 주석)에서 MHEs 인식 성능을 평가하고, 노트 특성이 모델 정확도에 미치는 영향을 분석했습니다. 또한, 문제, 검사, 치료 및 기타 기본 의료 개체(BMEs)를 통합하여 모델 성능을 향상시키는 방법과 GPT-4o와의 제로샷 성능 비교를 수행했습니다. 마지막으로 노트 길이, 개체 길이, 분절 등 텍스트 특성에 따른 오류 분석을 실시했습니다. 결과적으로 cLLMs는 MHEs 추출 시간을 20% 이상 단축할 가능성을 보였으나, 다의어 성격과 비의료 어휘의 빈번한 사용으로 많은 유형의 MHEs 탐지에는 어려움을 보였습니다. GatorTron과 GatorTronS가 가장 높은 성능을 보였으며, 사전 식별된 BME 정보 통합은 특정 개체의 모델 성능을 향상시켰습니다. 텍스트 특성의 영향 분석 결과, 긴 개체는 식별이 어렵고, 노트 길이는 오류율과 상관관계가 없으며, 제목이 있는 잘 정리된 구획은 추출에 유리한 것으로 나타났습니다.