Sign In

Do Vision-Language Models Measure Up? Benchmarking Visual Measurement Reading with MeasureBench

Created by
  • Haebom
Category
Empty

저자

Fenfen Lin, Yesheng Liu, Haiyu Xu, Chen Yue, Zheqi He, Mingxuan Zhao, Miguel Hu Chen, Jiakang Liu, JG Yao, Xi Yang

개요

본 논문은 시각 언어 모델(VLM)이 측정 장치를 읽는 데 어려움을 겪는다는 점을 지적하며, 이를 해결하기 위해 실제 및 합성 이미지로 구성된 MeasureBench 벤치마크를 제시합니다. 또한, 시각적 외관을 제어할 수 있는 데이터 합성을 위한 확장 가능한 파이프라인을 소개합니다. 연구 결과, 최첨단 VLM조차 측정을 읽는 데 어려움을 겪으며, 특히 지표 위치 파악에 실패하는 경향이 있음을 확인했습니다. 강화 학습 실험을 통해 합성 데이터에 대한 긍정적인 결과를 얻었지만, 실제 이미지에서는 제한적인 성능을 보였습니다. 본 논문은 VLM의 미세한 공간적 감지에 대한 근본적인 한계를 강조하며, 시각 기반 수리 능력과 정확한 공간 인식을 향상시키는 데 기여하고자 합니다.

시사점, 한계점

시사점:
MeasureBench 벤치마크를 통해 VLM의 측정 판독 능력 평가 가능.
측정 장치 판독을 위한 합성 데이터 생성 파이프라인 제시.
최첨단 VLM의 약점(지표 위치 파악 실패) 확인.
VLM의 미세한 공간적 감지 능력 향상의 필요성 강조.
한계점:
강화 학습 실험 결과가 실제 이미지에 대해 제한적임.
VLM의 근본적인 한계(미세한 공간적 감지)가 연구의 주요 초점.
👍