대규모 시각-언어 모델(LVLM)을 이용한 방사선 보고서 자동 생성의 잠재력에도 불구하고 임상적으로 중요한 환각을 생성하는 문제가 있다. 본 논문에서는 문장 수준의 Process Reward Model (PRM)을 도입하여 이러한 문제를 해결하고자 한다. PRM은 임상적 맥락과 이전 텍스트를 기반으로 각 생성된 문장의 사실적 정확성을 예측한다. MIMIC-CXR 데이터셋에 약하게 감독된 레이블로 미세 조정된 경량 PRM (0.5B 파라미터)은 기존 검증 기술보다 성능이 우수하며, 보이지 않는 LVLM으로 일반화된다. PRM 점수는 품질이 낮은 보고서를 효과적으로 필터링하고, 가중치 부여된 최적-N 선택 프로세스를 안내하여 임상 지표를 향상시킨다.