每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

通过稀疏特征控制实现多语言 Transformer 中的因果语言控制

Created by
  • Haebom

作者

周正廷、乔治·刘、杰西卡·孙、科尔·布朗丁、凯文·朱、瓦苏·夏尔马、肖恩·奥布莱恩

大纲

本研究探索了如何使用预训练的稀疏自编码器 (SAE) 特征来控制大规模多语言语言模型 (LLM) 的生成语言。具体而言,我们将 SAE 特征应用于 Gemma-2B 和 Gemma-9B 模型的残差流,在零样本环境中进行训练,无需明确的语言提示或微调,以识别英语、中文、日语、西班牙语和法语之间激活差异的特征。通过单一 SAE 特征操作,我们实现了语言切换,成功率高达 90%(基于 FastText 语言分类标准),同时通过 LaBSE 相似性保持了语义保真度。我们的分析表明,语言控制在 Transformer 的中后期层最为有效,并通过与语言敏感的 SAE 特征相关的特定注意力头进行放大。

Takeaways,Limitations

我们提出了通过稀疏特征控制以轻量级和可解释的方式控制多语言生成的可能性。
提高零样本环境中语言控制的成功率。
通过揭示特定注意力头和 SAE 特征之间的相关性,我们加深了对模型行为的理解。
由于该实验仅限于 Gemma-2B 和 Gemma-9B 模型,因此需要进一步研究以确定其对其他模型和语言的普遍性。
除了使用 FastText 进行语言分类和使用 LaBSE 相似度进行语义保真度评估之外,还需要进一步分析其他评估指标。
除了单一特征操纵之外,还需要研究同时操纵多个特征的效果。
👍