본 논문은 흉부 X선 판독 보고서의 오류 검출 및 수정을 위한 종합적인 벤치마크인 CorBenchX를 제시합니다. 26,326건의 오류가 주입된 흉부 X선 보고서 데이터셋을 생성하고, 다양한 오픈 및 클로즈 소스 비전-언어 모델(InternVL, Qwen-VL, GPT-4o, o4-mini, Claude-3.7 등)을 사용하여 제로샷 프롬프팅 환경에서 오류 검출 및 수정 성능을 평가합니다. o4-mini 모델이 가장 우수한 성능을 보였으나, 임상 수준의 정확도에는 미치지 못했습니다. 더 나아가, 다중 목표 보상을 결합한 다단계 강화 학습(MSRL) 프레임워크를 제안하고, QwenVL2.5-7B 모델에 적용하여 제로샷 기준 대비 오류 검출 정확도와 수정 성능을 향상시켰습니다.