每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

InfoDet:信息图元素检测数据集

Created by
  • Haebom

作者

朱江宁、周宇星、王政、姚俊涛、顾一马、袁宇辉、刘世霞

大纲

鉴于图表在科学、商业和通信领域的重要性,本文致力于提升视觉语言模型 (VLM) 的图表理解能力。为了解决现有 VLM 对图表、图标和图像等人类可感知对象 (HRO) 的视觉检测不准确的问题,我们引入了 InfoDet 数据集,该数据集支持开发针对图表和 HRO 的精准对象检测模型。InfoDet 包含 11,264 个真实信息图和 90,000 个合成信息图,以及超过 1400 万个边界框标注。基于该数据集,我们提出了一种“带框思考”的方法来提升 VLM 的图表理解性能。我们还比较分析了现有的对象检测模型,并展示了三个应用案例,将开发的检测模型应用于文档布局和 UI 元素检测。

Takeaways,Limitations

Takeaways:
提供新的数据集(InfoDet)以提高 VLM 的图表理解能力。
提出通过“带框思考”方案提高 VLM 性能的可能性。
提供现有对象检测模型的比较分析和性能评估。
建议在文档布局和 UI 元素检测领域的潜在应用。
Limitations:
论文摘要中缺乏具体的绩效指标或数值。
缺乏对“带框思考”方案具体实施方法和有效性的详细解释。
缺乏关于如何创建数据集的详细解释(结合模型在环和编程方法)。
需要进一步研究来确定所提出的方法的普遍性及其对其他 VLM 模型的适用性。
👍