본 논문은 대규모 언어 모델(LLM) 배포 시 안전하지 않은 프롬프트에 대한 응답을 방지하고 안전한 프롬프트에 순응하도록 유도하는 방법을 제시한다. 특히, Sparse Autoencoders (SAEs)를 활용하여 LLM의 특징을 추출하고, 이를 기반으로 모델을 효과적으로 제어하는 방법을 탐구한다. AI-Generated Prompts Dataset과 Air Bench eu-dataset을 사용하여 특징을 선택하고, Llama-3 8B 모델을 대상으로 실험한 결과, 안전성 성능을 18.9% 향상시키면서 유용성을 11.1% 증가시키는 성과를 거두었다.