A Guardrail for Safety Preservation: When Safety-Sensitive Subspace Meets Harmful-Resistant Null-Space
Created by
Haebom
Category
Empty
저자
Bingjie Zhang, Yibo Yang, Zhe Ren, Dandan Guo, Jindong Gu, Philip Torr, Bernard Ghanem
개요
본 논문은 대규모 언어 모델(LLM)의 미세 조정 과정에서 안전성 유지를 위한 GuardSpace라는 프레임워크를 제안한다. GuardSpace는 안전 관련 하위 공간과 유해 콘텐츠에 저항하는 널 공간으로 구성되며, 사전 훈련된 안전성을 보존하면서 미세 조정을 수행하여 유해한 답변 생성을 줄이는 것을 목표로 한다. 특히, 공분산-전처리 특이값 분해를 통해 가중치를 안전 관련 및 안전 무관 구성 요소로 분해하고, 안전 관련 구성 요소를 고정하는 방식으로 미세 조정을 진행한다.