본 논문은 ChatGPT가 연구 논문의 질을 평가하는 능력, 특히 의학 분야에서의 적용 가능성을 대규모 데이터셋을 이용하여 분석합니다. 기존 연구에서 ChatGPT의 평가 점수가 전 분야에서 전문가 평가 점수와 양의 상관관계를 보였으나, 임상 의학 분야에서는 예외를 보였던 점을 중점적으로 다룹니다. 영국 연구 우수성 프레임워크(REF) 2021의 임상 의학 분야 데이터를 이용하여 ChatGPT 4, 3.5, 4o-mini 모델의 평가 점수와 REF 점수 간 상관관계를 분석하였습니다. 분석 결과, ChatGPT 점수는 부서 평균 REF 점수 및 저널 REF 점수와 양의 상관관계를 보였으나, 일부 저명한 의학 저널이나 인간 건강에 직접적인 영향을 미치는 연구에서는 효과적이지 않은 것으로 나타났습니다. 하지만 전반적으로 ChatGPT가 임상 의학 분야에서 새로운 연구의 질을 평가하는 데 유용하게 사용될 수 있음을 시사합니다.