Do Vision-Language Models Measure Up? Benchmarking Visual Measurement Reading with MeasureBench
Created by
Haebom
Category
Empty
저자
Fenfen Lin, Yesheng Liu, Haiyu Xu, Chen Yue, Zheqi He, Mingxuan Zhao, Miguel Hu Chen, Jiakang Liu, JG Yao, Xi Yang
개요
본 논문은 시각 언어 모델(VLM)이 측정 장치를 읽는 데 어려움을 겪는다는 점을 지적하며, 이를 해결하기 위해 실제 및 합성 이미지로 구성된 MeasureBench 벤치마크를 제시합니다. 또한, 시각적 외관을 제어할 수 있는 데이터 합성을 위한 확장 가능한 파이프라인을 소개합니다. 연구 결과, 최첨단 VLM조차 측정을 읽는 데 어려움을 겪으며, 특히 지표 위치 파악에 실패하는 경향이 있음을 확인했습니다. 강화 학습 실험을 통해 합성 데이터에 대한 긍정적인 결과를 얻었지만, 실제 이미지에서는 제한적인 성능을 보였습니다. 본 논문은 VLM의 미세한 공간적 감지에 대한 근본적인 한계를 강조하며, 시각 기반 수리 능력과 정확한 공간 인식을 향상시키는 데 기여하고자 합니다.