每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

分析代码语言模型中的潜在概念

Created by
  • Haebom

作者

Arushi Sharma、Vedant Pungliya、Christopher J. Quinn、Ali Jannesari

代码概念分析(CoCoA):一种可解释的代码语言模型

大纲

本文提出了一种解释大规模语言模型内部工作原理的方法,这些模型基于代码进行训练,重点关注那些需要可信度、透明性和语义鲁棒性的应用。我们提出了一个全局后验可解释性框架——代码概念分析 (CoCoA),它将语境化的标记嵌入聚类到人类可解释的概念组中,从而揭示代码语言模型表征空间中出现的词汇、句法和语义结构。我们提出了一种混合标注流程,将基于静态分析的短语对齐与基于提示设计的大规模语言模型 (LLM) 相结合,以可扩展地标记不同抽象层次的潜在概念。跨多个模型和任务的实验评估表明,CoCoA 在语义保留扰动下保持稳定(平均聚类敏感度指数 CSI = 0.288),并能发现那些通过微调可预测演化的概念。一项关于编程语言分类任务的用户研究表明,与使用统一梯度的标记级归因相比,概念增强解释可以阐明标记角色并将以人为本的可解释性提高 37%。

Takeaways, Limitations

Takeaways:
我们提出了一个新框架(CoCoA)来解释代码语言模型的内部工作原理。
通过了解模型的词汇、语法和语义结构来分析模型的表示空间。
通过混合注释管道进行可扩展的概念标记。
通过模型稳定性和微调展示可预测的概念演变。
基于概念的解释提高了令牌角色的清晰度和以人为本的可解释性(增加 37%)。
Limitations:
论文中没有指定 Limitations。
👍