본 논문은 미국 의료 현장에서 확산되고 있는 AI Scribes(생성형 AI 도구)의 질적 평가 방법 부재 문제를 해결하고자, 대규모 언어 모델(LLM)이 생성한 진료 기록(Ambient notes)과 전문의가 작성한 진료 기록(Gold notes)을 비교 분석한 연구 결과를 제시합니다. 음성 녹음된 97건의 환자 진료를 바탕으로, 5개 의료 분야 전문가들이 Physician Documentation Quality Instrument (PDQI9)를 사용하여 각각의 진료 기록을 평가했습니다. 평가자 간 신뢰도는 대체로 높았으며(일반의학, 정형외과, 산부인과 분야에서 0.7 이상), Gold notes는 평균 4.25점, Ambient notes는 평균 4.20점으로, 통계적으로 유의미한 차이(p=0.04)를 보였지만 그 차이는 미미했습니다. 결론적으로, PDQI9 도구는 LLM이 생성한 진료 기록의 질적 평가에 유용한 방법임을 시사합니다.