每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

GPT 与偏见:理解大型语言模型中学习表征的稀疏方法

Created by
  • Haebom

作者

玛丽雅姆·马兰、凯瑟琳娜·辛贝克

大纲

为了增强大规模语言模型 (LLM) 的可解释性,我们将稀疏自编码器 (SAE) 应用于基于简·奥斯汀小说训练的 GPT 风格迁移模型。我们分析了模型表征和训练数据中的结构、主题和偏差。我们发现了一些可解释的特征,这些特征反映了核心叙事和概念,例如性别、阶级和社会义务。

Takeaways, Limitations

LLM 和 SAE 的结合使得对复杂数据集的可扩展探索成为可能。
我们提出了一种新方法来检测训练数据中的偏差并提高模型的可解释性。
仅限于简·奥斯汀小说的特定领域,对其他数据集的普遍性需要进一步研究。
SAE 的训练和解释过程的复杂性会使其实际应用变得困难。
👍