每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

自行进行基准测试 (BI​​Y):准备数据集并对散点图相关任务的 AI 模型进行基准测试

Created by
  • Haebom

作者

若奥·帕尔梅罗、迪奥戈·杜阿尔特、丽塔·科斯塔、佩德罗·比扎罗

大纲

本文提出了一个散点图相关任务的基准,用于评估数据分析和可视化领域人工智能模型的性能。为此,我们使用六个数据生成器和 17 种图表设计,构建了一个包含超过 18,000 个散点图的合成带注释数据集。我们使用 N-shot 提示法对该数据集进行了评估,并利用 OpenAI 和谷歌的模型执行了五项基于聚类边界框、质心坐标和离群值坐标注释的任务。

Takeaways, Limitations

Takeaways:
OpenAI 模型和 Gemini 2.5 Flash 在识别聚类和异常值方面表现出色(准确率超过 90%)。
Gemini 2.5 Flash 在异常值识别方面达到了 65.01% 的准确率。
通过示例提示有助于提高性能。
Limitations:
与位置相关的任务(聚类和异常位置识别)的精确度和召回率较差,低于 50%。
当使用宽高比(16:9 和 21:9)或随机颜色的散点图时,性能会下降。
图表设计的影响似乎是次要因素。
👍