본 논문은 언어 모델 생성의 안전성과 신뢰성을 확보하기 위한 정밀한 제어 방법으로, 희소 자동 인코더(SAE)를 이용하여 고차원 공간에서 지식을 분리하고 조작하는 새로운 방법인 Steering Target Atoms (STA)를 제안합니다. 기존의 프롬프트 엔지니어링 및 스티어링의 한계점인 매개변수 간의 상호 의존성으로 인한 제어 정밀도 저하 및 예기치 못한 부작용 문제를 해결하기 위해, STA는 원자적 지식 구성 요소를 분리하여 조작함으로써 안전성을 향상시킵니다. 실험 결과, STA는 특히 적대적 상황에서 우수한 강건성과 유연성을 보이며, 대규모 추론 모델에도 효과적으로 적용됨을 확인했습니다.