每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

面向法学硕士 (LLM) 中负责任 AI 的可扩展多语言 PII 注释

Created by
  • Haebom

作者

巴蒂·米娜、乔安娜·斯库比兹、Harshit Rajgarhia、Nand Dave、Kiran Ganesh、Shivali Dalmia、Abhishek Mukherji、Vasudevan Sundarababu

大纲

本文提出了一个可扩展的多语言数据管理框架,用于为13个服务欠缺地区的336种区域性PII类型提供高质量的PII注释,从而确保大规模语言模型(LLM)在处理PII时的可靠性。该框架采用一种逐步的、人工驱动的注释方法,将语言专业知识与严格的质量保证相结合。它系统地识别和解决注释不一致问题,从而生成适用于基于监督学习的LLM微调的高质量数据集。

Takeaways, Limitations

Takeaways:
通过在 13 个服务不足的地区构建 336 种区域 PII 类型的高质量数据集,增强 LLM 的 PII 处理能力。
通过以人为本的注释方法,结合语言专家和严格的质量保证来提高注释质量。
通过注释一致性分析提高数据集的可靠性。
识别多语言 PII 标签中的常见挑战,并通过分析驱动的管道提高注释质量和模型可靠性。
Limitations:
缺乏有关特定数据集大小和性能指标(例如,召回率、假阳性率的改善)的详细信息。
目前还没有关于所提出的框架对其他地区或 PII 类型的推广程度的信息。
没有关于 LLM 微调的具体方法和结果的信息。
👍