本文提出了一种解释大规模语言模型内部工作原理的方法,这些模型基于代码进行训练,重点关注那些需要可信度、透明性和语义鲁棒性的应用。我们提出了一个全局后验可解释性框架——代码概念分析 (CoCoA),它将语境化的标记嵌入聚类到人类可解释的概念组中,从而揭示代码语言模型表征空间中出现的词汇、句法和语义结构。我们提出了一种混合标注流程,将基于静态分析的短语对齐与基于提示设计的大规模语言模型 (LLM) 相结合,以可扩展地标记不同抽象层次的潜在概念。跨多个模型和任务的实验评估表明,CoCoA 在语义保留扰动下保持稳定(平均聚类敏感度指数 CSI = 0.288),并能发现那些通过微调可预测演化的概念。一项关于编程语言分类任务的用户研究表明,与使用统一梯度的标记级归因相比,概念增强解释可以阐明标记角色并将以人为本的可解释性提高 37%。