본 논문은 AI 모델의 표현 일반성(representation universality)을 활용하여 안전성 개입(safety interventions)을 모델 간에 전이하는 방법을 제시합니다. 학습된 활성화 공간 매핑을 통해 백도어 제거 및 유해 프롬프트 거부와 같은 기존 AI 안전성 과제에 대한 해결책을 제시하고, 새로운 과제인 "손상된 기능(corrupted capabilities)"을 제안하여 유용한 기술과 백도어를 분리하는 모델의 능력을 평가합니다. Llama, Qwen, Gemma 모델 계열을 대상으로 한 실험을 통해, 작은 모델을 이용하여 큰 모델을 효율적으로 정렬하고, 오토인코더 매핑을 활용하여 모델 동작을 동적으로 전환하는 "경량 안전 스위치(lightweight safety switches)"를 구현할 수 있음을 보여줍니다.