本研究旨在理解指令调优的大规模语言模型 (LLM) 拒绝有害提示的内部机制。我们使用基于 Gemma-2-2B-IT 和 LLaMA-3.1-8B-IT 模型残差流激活训练的稀疏自编码器 (SAE),识别出一组诱导模型对有害提示产生拒绝行为的 SAE 特征。通过三阶段流程(拒绝方向搜索、贪婪过滤和交互发现),我们识别出对拒绝行为有关键影响的特征,并借此试图理解模型安全行为的机制基础。我们发现了冗余特征的存在,这使我们能够操纵可解释的潜在空间,从而表明可以对安全行为进行细粒度审计并采取有针对性的干预措施。