每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

熵-记忆定律:评估法学硕士(LLM)中数据的记忆难度

Created by
  • Haebom

作者

黄一展、杨哲、陈美芳、黄念辰、张建平和 Michael R. Lyu

大纲

我们针对大规模语言模型(LLM)中训练数据的记忆现象进行了研究。具体而言,我们探索了表征数据记忆难度的方法,并在OLMo模型上进行了实验,提出了熵-记忆规律。根据该规律,数据熵与记忆分数之间存在线性相关性。此外,通过记忆随机字符串(乱码)的实验,我们证实了随机字符串的熵低于训练数据。基于这些结果,我们开发了一种简单有效的数据集推断(DI)方法,可以区分训练数据和测试数据。

Takeaways, Limitations

Takeaways:
我们发现了数据熵和LLM记忆能力之间的新相关性,这表明可以预测记忆难度。
使用数据熵开发训练/测试数据区分技术(数据集推断)。
随机字符串记忆实验表明,数据复杂度并不一定等同于记忆难度。
Limitations:
需要进一步研究来确定 OLMo 模型的实验结果是否可以推广到其他 LLM 模型。
需要进一步评估以确定所提出的熵记忆定律对于现实世界数据集的推理有多有效。
不同类型数据的熵与记忆之间的关系有待进一步研究。
👍