本文探讨了大规模语言模型 (LLM) 在实际应用中日益普及所带来的严峻安全挑战。现有的安全研究主要侧重于 LLM 的输出或特定的安全任务,这限制了其应对广泛且未定义风险的能力。本文提出了 Safe-SAIL 框架,该框架利用稀疏自编码器 (SAE) 提取丰富多样的安全相关特征,从而阐明模型行为并有效捕捉安全相关的风险行为(例如,产生危险响应、违反安全法规)。Safe-SAIL 系统地识别了具有最高安全概念特定可解释性的 SAE,描述了安全相关神经元,并引入了有效的策略来扩展解释过程。研究人员计划发布一个包含 SAE 检查点和人类可读神经元描述的综合工具包,以促进 LLM 安全研究。