鉴于图表在科学、商业和通信领域的重要性,本文致力于提升视觉语言模型 (VLM) 的图表理解能力。为了解决现有 VLM 对图表、图标和图像等人类可感知对象 (HRO) 的视觉检测不准确的问题,我们引入了 InfoDet 数据集,该数据集支持开发针对图表和 HRO 的精准对象检测模型。InfoDet 包含 11,264 个真实信息图和 90,000 个合成信息图,以及超过 1400 万个边界框标注。基于该数据集,我们提出了一种“带框思考”的方法来提升 VLM 的图表理解性能。我们还比较分析了现有的对象检测模型,并展示了三个应用案例,将开发的检测模型应用于文档布局和 UI 元素检测。