为了提升多模态大规模语言模型 (MLLM) 的几何推理能力,获取大规模、高质量的推理数据至关重要。为了克服现有数据生成方法的局限性,我们提出了一种新颖的神经符号框架 NeSyGeo。NeSyGeo 使用一种领域特定语言,能够全面表示平面几何的所有元素,合成符号序列并将其映射到视觉和文本表示,并通过后向搜索和前向验证生成推理路径。基于该框架,我们构建了 NeSyGeo CoT 和 NeSyGeo-Caption 数据集,每个数据集包含 100,000 个样本,并发布了 NeSyGeo-Test,这是一个用于评估 MLLM 几何推理能力的新基准。实验结果表明,所提出的方法显著提升了多个 MLLM 的性能,尤其是在样本量和训练次数较少的情况下。