의학 분야의 현재 비전-언어 모델(VLM)은 주로 범주형 질문 응답이나 정성적 설명 작업에 초점을 맞추고 있습니다. 그러나 임상적 의사 결정은 종종 종양 크기 측정이나 관절 각도 측정과 같은 정량적 평가에 의존합니다. 이 연구에서는 정량적 의료 영상 분석에 대한 VLM의 평가 및 개선을 위해 특별히 설계된 대규모 데이터 세트 및 벤치마크인 MedVision을 소개합니다. MedVision은 다양한 해부학 및 모달리티를 포괄하는 22개의 공개 데이터 세트를 포함하며 3080만 개의 이미지-주석 쌍을 가지고 있습니다. MedVision은 해부학적 구조 및 이상 감지, 종양/병변 크기 추정, 각도/거리 측정의 세 가지 대표적인 정량적 작업에 중점을 둡니다. 벤치마크 결과, 기존 VLM은 이러한 작업에서 성능이 저조하지만, MedVision을 기반으로 지도 학습 기반 미세 조정을 수행하면 감지, 종양/병변 추정 및 각도/거리 측정에서 성능이 크게 향상됩니다.