본 논문은 임상 문서 내 오류를 감지하고 수정하는 데 있어 대규모 언어 모델(LLM)의 활용 가능성을 탐구한다. 특히, 제로샷 프롬프팅, 임의 예시를 활용한 정적 프롬프팅(SPR), 검색 증강 동적 프롬프팅(RDP) 등 다양한 프롬프팅 전략을 비교 평가했다. MEDEC 데이터셋을 사용하여 GPT, Claude, Gemini 및 OpenAI 모델을 포함한 9개의 instruction-tuned LLM의 성능을 정확도, 재현율, FPR, ROUGE-1, BLEURT, BERTScore를 통해 측정했다.