每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

NeSyGeo:用于多模态几何推理数据生成的神经符号框架

Created by
  • Haebom

作者

吴伟明、叶金、王子康、周志、李玉峰、郭兰哲

大纲

为了提升多模态大规模语言模型 (MLLM) 的几何推理能力,获取大规模、高质量的推理数据至关重要。为了克服现有数据生成方法的局限性,我们提出了一种新颖的神经符号框架 NeSyGeo。NeSyGeo 使用一种领域特定语言,能够全面表示平面几何的所有元素,合成符号序列并将其映射到视觉和文本表示,并通过后向搜索和前向验证生成推理路径。基于该框架,我们构建了 NeSyGeo CoT 和 NeSyGeo-Caption 数据集,每个数据集包含 100,000 个样本,并发布了 NeSyGeo-Test,这是一个用于评估 MLLM 几何推理能力的新基准。实验结果表明,所提出的方法显著提升了多个 MLLM 的性能,尤其是在样本量和训练次数较少的情况下。

Takeaways,Limitations

Takeaways:
我们利用一种新颖的神经符号框架 NeSyGeo 来解决几何推理数据生成的多样性和数值泛化挑战。
NeSyGeo 框架已被证明能够有效提高 MLLM 的几何推理能力。
即使只有少量的数据和训练,MLLM 的性能也可以得到显著提高。
4B模型比8B模型能取得更好的效果。
Limitations:
论文中没有具体说明Limitations。
👍