本文探讨了如何开发一个文本转图表检索系统,该系统能够识别符合用户分析需求的相关图表,并锁定对数据分析和决策至关重要的图表。为了克服现有系统的局限性,我们提出了一个训练数据开发流程,可以自动合成涵盖视觉模式、统计属性和实际应用的分层语义信息。基于此流程,我们训练了基于 CLIP 的模型 ChartFinder,使其学习能够更好地理解图表视觉和语义特征的表征。此外,我们构建了一个基准测试 CRBench,并使用来自实际商业智能 (BI) 应用程序的图表和文本查询来评估文本转图表检索的性能。实验结果表明,ChartFinder 在精确查询和模糊查询方面均显著优于现有方法。