본 논문은 대규모 비전-언어 모델(LVLMs)의 의료 분야 적용에 있어 기존 벤치마크의 한계를 지적하며, 임상적으로 의미 있는 추론 과정 평가를 위한 새로운 벤치마크인 CXReasonBench를 제시합니다. MIMIC-CXR-JPG 데이터셋을 기반으로, CheXStruct라는 구조화된 파이프라인을 통해 흉부 X선 사진으로부터 해부학적 영역 분할, 랜드마크 및 측정값 도출, 진단 지수 계산, 임상 역치 적용 등의 중간 추론 단계를 자동으로 도출합니다. CXReasonBench는 이 파이프라인을 활용하여 모델의 임상적으로 타당한 추론 단계 수행 여부 및 구조화된 지침으로부터의 학습 정도를 평가하며, 해부학적 영역 선택 및 진단 측정을 통한 시각적 근거 제시를 포함한 다단계, 다경로 평가를 지원합니다. 10개의 LVLMs을 평가한 결과, 구조화된 추론 및 일반화에 어려움을 보이며, 추상적 지식과 해부학적으로 근거한 시각적 해석을 연결하는 데 실패하는 경우가 많음을 확인했습니다. 코드는 깃허브에서 공개됩니다.