本文探讨了多模态大规模语言模型 (MLLM) 在基于视觉文本的标注任务(尤其是在文档图像中)中的局限性。与专注于自然图像的现有基准测试不同,我们提出了一项新的基准测试任务 TRIG,该任务专注于富文本文档图像(例如扫描表格或信息图表)的复杂布局和文本内容。我们使用一个包含 800 个手动标注的问答对和从四个不同数据集生成的 90,000 个合成数据点的全新指导数据集,评估并提升了 MLLM 在富文本图像上的标注能力。此外,我们提出了两种有效的 TRIG 方法:通用指导微调和即插即用的高效嵌入。在合成数据集上对 MLLM 进行微调可增强其空间推理和标注能力。