每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

克服跨编码器中的稀疏性伪影来解释聊天调整

Created by
  • Haebom

作者

朱利安·明德、克莱门特·杜马斯、Caden Juang、Bilal Chugtai、Neel Nanda

大纲

本文探讨了模型差异化,即微调如何改变模型表征和内部算法。具体而言,我们使用一种名为“交叉编码器”的模型差异化方法来追踪基础模型和微调模型之间的概念变化。我们分析了现有交叉编码器的不足,并提出了“潜在缩放”和“BatchTopK 损失”来改进它们。实验表明,BatchTopK 交叉编码器能够识别更准确、更易于解释的概念,尤其擅长识别与聊天机器人相关的概念,例如“虚假信息”和“个人问题”,以及与拒绝相关的概念。

Takeaways,Limitations

Takeaways:
我们建议改进模型浸渍方法的利用,尤其是跨编码器。
通过潜在缩放识别和解决跨编码器问题。
使用具有 BatchTopK 损失的交叉编码器成功识别聊天机器人特定的概念。
深入了解微调对模型行为的具体影响。
Limitations:
仅限于 Gemma 2 2B 模型的实验结果。
需要进一步审查以确定其对其他模型结构和数据集的普遍性。
所提出的方法存在计算复杂性和额外超参数调整的需要。
概念解释的主观性,定量评价的困难。
👍