본 논문은 대규모 언어 모델(LLM)을 이용한 전자 건강 기록(EHR) 내 의료 개체명 인식(NER)에 대한 연구를 다룬다. GPT-4o와 DeepSeek-R1을 사용하여 제로샷, 퓨샷, 앙상블 등 다양한 프롬프트 엔지니어링 기법을 적용하여 질병, 검사, 치료 등의 의료 개체를 추출하는 성능을 비교 분석하였다. 그 결과, GPT-4o에 앙상블 기법을 적용한 경우 F1-score 0.95, 재현율 0.98을 달성하여 DeepSeek-R1을 능가하는 성능을 보였으며, 임베딩 기반 유사도 및 다수결 투표를 통한 앙상블 기법이 신뢰도 향상에 기여함을 확인하였다.