尽管大规模语言模型 (LLM) 在各种自然语言处理任务中取得了显著成功,但中文 LLM 面临着独特的挑战,这主要归因于中文语料库中非结构化自由文本的盛行以及结构化表征的缺乏。现有的基准测试部分评估了中文 LLM,但它们仍然以英语为中心,缺乏进行稳健评估所必需的结构化数据集,未能体现中文独特的语言特征。为了应对这些挑战,我们基于新构建的中文数据-文本对 (CDTP) 数据集,提出了一个用于评估中文大规模语言模型 (CB-ECLLM) 的综合基准测试。CDTP 包含超过 700 万个对齐文本对,这些文本对由非结构化文本和一个或多个相应的三元组组成,涵盖四个核心领域的 1500 万个三元组。 CDTP 的主要贡献包括:(i) 用高质量的结构化信息丰富中文语料库;(ii) 针对知识型任务进行定制的细粒度评估;以及 (iii) 支持多任务微调,以评估知识图谱补全、三重文本生成和问答等场景下的泛化能力和鲁棒性。此外,我们通过大量的实验和移除研究来评估基准、监督微调 (SFT) 和鲁棒性的有效性。为了支持可重复的研究,我们提供了一个开源代码库,并根据我们的见解提出了未来的研究方向。