본 논문은 AI 모델의 표현 일반성(representation universality)을 활용하여 안전성 개입(safety interventions)을 모델 간에 전이하는 방법을 제시합니다. 학습된 활성화 공간 매핑을 통해 백도어 제거 및 유해 프롬프트 거부와 같은 AI 안전성 과제에서 조향 벡터(steering vectors)를 성공적으로 전이하는 것을 보여줍니다. 또한, 백도어와 관련된 지식을 모델에 내장하여 유용한 기술과 백도어를 분리하는 능력을 평가하는 새로운 과제인 "손상된 기능(corrupted capabilities)"을 제안합니다. Llama, Qwen, Gemma 모델 계열을 대상으로 한 광범위한 실험을 통해, 제안된 방법이 작은 모델을 사용하여 큰 모델을 효율적으로 정렬할 수 있음을 보여주고, 오토인코더 매핑을 이용한 "경량 안전 스위치(lightweight safety switches)"를 통해 모델 동작을 동적으로 전환할 수 있음을 입증합니다.