본 연구는 GPT-4를 이용하여 생성된 합성 의료 영상 보고서 데이터셋을 활용하여 의료 보고서 오류 탐지 모델의 성능을 평가한 후향적 연구입니다. 데이터셋은 GPT-4로 생성된 오류 포함/미포함 합성 보고서 1,656건과 MIMIC-CXR 데이터베이스의 실제 보고서 307건 및 그에 대응하는 GPT-4 생성 오류 포함 합성 보고서 307건으로 구성됩니다. 오류는 부정, 좌우, 간격 변화, 전사 오류의 네 가지 유형으로 분류되었고, Llama-3, GPT-4, BiomedBERT 모델을 제로샷 프롬프팅, 퓨샷 프롬프팅, 파인튜닝 전략을 사용하여 학습시켰습니다. 파인튜닝된 Llama-3-70B-Instruct 모델이 가장 우수한 성능을 보였으며, 실제 방사선과 전문의 평가에서도 모델의 오류 탐지 성능이 확인되었습니다.