본 논문은 대규모 비전-언어 모델(LVLM)의 의료 영상 분석 능력을 평가하기 위해, 공개된 MIMIC-CXR-JPG 데이터셋을 기반으로 한 구조화된 파이프라인과 벤치마크(CheXStruct 및 CXReasonBench)를 제안합니다. CheXStruct는 흉부 X-ray 영상에서 해부학적 영역 분할, 랜드마크 추출, 진단 지수 계산 등 임상적으로 유의미한 중간 추론 단계를 자동으로 생성합니다. CXReasonBench는 이를 활용하여 모델이 임상적으로 유효한 추론 단계를 수행할 수 있는지, 구조화된 지침으로부터 학습할 수 있는지를 평가합니다. 벤치마크는 12개 진단 작업, 1,200개 사례, 최대 4개의 시각적 입력, 18,988개의 질문-응답 쌍으로 구성되며, 해부학적 영역 선택 및 진단 측정을 통한 시각적 근거를 포함한 다단계 평가를 지원합니다. 12개의 LVLM을 평가한 결과, 대부분의 모델이 구조화된 추론과 일반화에 어려움을 겪고, 추상적인 지식과 해부학적 시각적 해석을 연결하는 데 실패함을 확인했습니다.