본 논문은 대규모 언어 모델(LLM)의 잠재적 위험성, 특히 생화학 무기, 첨단 화학, 사이버 공격 등의 지식을 악용할 가능성에 주목합니다. LLM의 내부 동작이 불투명하다는 점을 고려하여, 희소 자동 인코더(SAE)를 활용하여 LLM 내부의 개념 표현을 분석하고, 특징 조정을 통해 유해한 질문에 대한 응답 능력을 감소시키면서 무해한 질문에 대한 성능은 유지하는 방법을 제시합니다. 대량살상무기 프록시(WMDP) 데이터셋과 gemma-2-2b 모델을 사용하여 실험을 진행하고, SAE 기반의 명시적 지식 제거 기법의 실현 가능성을 확인합니다.