기존 AI 안전성 확보 패러다임(예: 안전장치 모델, 정렬 학습)은 추론 효율성 또는 개발 유연성 중 하나를 희생하는 경우가 많습니다. 본 논문에서는 작업에 최적화된 기본 모델에서 안전 관련 계산을 분리하여 이러한 문제를 해결하는 새로운 프레임워크인 분리된 안전 어댑터(DSA)를 제시합니다. DSA는 기본 모델의 내부 표현을 활용하는 경량 어댑터를 사용하여 추론 비용에 미치는 영향을 최소화하면서 다양하고 유연한 안전 기능을 가능하게 합니다. 실험적으로 DSA 기반 안전 장치는 비슷한 크기의 독립형 모델보다 훨씬 우수한 성능을 보였으며, 환각 감지(Summedits에서 AUC 0.88 대 0.61), 증오 발언 분류(ToxiGen에서 0.98 대 0.92), 안전하지 않은 모델 입력 및 응답 분류(AEGIS2.0 & BeaverTails에서 0.93 대 0.90)에서 뛰어난 성능을 보였습니다. 또한, DSA 기반 안전 정렬을 통해 동적이고 추론 시간에 따른 정렬 강도 조정 및 지시 사항 준수 성능과 모델 안전성 간의 세분화된 절충이 가능합니다. 중요하게도, DSA 안전 장치와 DSA 안전 정렬을 결합하면 상황에 따른 정렬 강도를 용이하게 하여 StrongReject의 안전성을 93% 향상시키는 동시에 MTBench의 성능을 98% 유지합니다. 이는 표준 안전 정렬 미세 조정과 비교하여 정렬 비용을 총 8% 감소시킨 것입니다. 전반적으로 DSA는 더욱 모듈화되고 효율적이며 적응력 있는 AI 안전성 및 정렬을 위한 유망한 방향을 제시합니다.