每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

CDTP:用于中文法学硕士综合评估的大规模中文数据-文本对数据集

Created by
  • Haebom

作者

吴成伟、王家璞、高明阳、卓星瑞、郭继鹏、雷润林、罗浩然、陈天宇、周浩一、潘诗睿、李泽超

大纲

尽管大规模语言模型 (LLM) 在各种自然语言处理任务中取得了显著成功,但中文 LLM 面临着独特的挑战,这主要归因于中文语料库中非结构化自由文本的盛行以及结构化表征的缺乏。现有的基准测试部分评估了中文 LLM,但它们仍然以英语为中心,缺乏进行稳健评估所必需的结构化数据集,未能体现中文独特的语言特征。为了应对这些挑战,我们基于新构建的中文数据-文本对 (CDTP) 数据集,提出了一个用于评估中文大规模语言模型 (CB-ECLLM) 的综合基准测试。CDTP 包含超过 700 万个对齐文本对,这些文本对由非结构化文本和一个或多个相应的三元组组成,涵盖四个核心领域的 1500 万个三元组。 CDTP 的主要贡献包括:(i) 用高质量的结构化信息丰富中文语料库;(ii) 针对知识型任务进行定制的细粒度评估;以及 (iii) 支持多任务微调,以评估知识图谱补全、三重文本生成和问答等场景下的泛化能力和鲁棒性。此外,我们通过大量的实验和移除研究来评估基准、监督微调 (SFT) 和鲁棒性的有效性。为了支持可重复的研究,我们提供了一个开源代码库,并根据我们的见解提出了未来的研究方向。

Takeaways,Limitations

解决中国法学硕士评估缺乏结构化数据集的问题
提出用于评估中文文本知识型任务的 CB-ECLLM 基准
使用 CDTP 数据集丰富中文语料库的高质量结构化信息。
对完成知识图谱、生成三重文本、回答问题等各种任务的评估。
通过提供开源代码库确保研究的可重复性。
Limitations:依赖于基准测试的具体任务和领域。这可能会导致潜在的数据集偏差,并限制模型的泛化能力。
👍