每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

面向多模态大型语言模型的视觉文本基础

Created by
  • Haebom

作者

李明、张瑞一、陈剑、王晨光、谷九翔、周宇凡、Franck Dernoncourt、朱万荣、周天一、孙桐

大纲

本文探讨了多模态大规模语言模型 (MLLM) 在基于视觉文本的标注任务(尤其是在文档图像中)中的局限性。与专注于自然图像的现有基准测试不同,我们提出了一项新的基准测试任务 TRIG,该任务专注于富文本文档图像(例如扫描表格或信息图表)的复杂布局和文本内容。我们使用一个包含 800 个手动标注的问答对和从四个不同数据集生成的 90,000 个合成数据点的全新指导数据集,评估并提升了 MLLM 在富文本图像上的标注能力。此外,我们提出了两种有效的 TRIG 方法:通用指导微调和即插即用的高效嵌入。在合成数据集上对 MLLM 进行微调可增强其空间推理和标注能力。

Takeaways, Limitations

Takeaways:
我们明确强调了基于视觉文本的富文本文档图像标记的挑战,并尝试通过新的基准 TRIG 来解决这些挑战。
我们提出了一种使用 OCR-LLM-Human Interaction 管道生成数据集的方法。
我们证明了所提出的 TRIG 方法在提高 MLLM 的空间推理和基础分配能力方面的潜力。
通过清楚地揭示现有 MLLM 文档图像理解能力的局限性,我们提出了未来的研究方向。
Limitations:
所呈现的合成数据集的大小(90k)可能无法完全反映现实世界的多样性。
需要进一步验证所提出的 TRIG 方法的泛化性能。
手动注释数据(800)的数量可能有限。
缺乏针对不同类型文档图像的泛化性能评估。
👍