Sign In

A Guardrail for Safety Preservation: When Safety-Sensitive Subspace Meets Harmful-Resistant Null-Space

Created by
  • Haebom
Category
Empty

저자

Bingjie Zhang, Yibo Yang, Zhe Ren, Dandan Guo, Jindong Gu, Philip Torr, Bernard Ghanem

개요

본 논문은 대규모 언어 모델(LLM)의 미세 조정 과정에서 안전성 유지를 위한 GuardSpace라는 프레임워크를 제안한다. GuardSpace는 안전 관련 하위 공간과 유해 콘텐츠에 저항하는 널 공간으로 구성되며, 사전 훈련된 안전성을 보존하면서 미세 조정을 수행하여 유해한 답변 생성을 줄이는 것을 목표로 한다. 특히, 공분산-전처리 특이값 분해를 통해 가중치를 안전 관련 및 안전 무관 구성 요소로 분해하고, 안전 관련 구성 요소를 고정하는 방식으로 미세 조정을 진행한다.

시사점, 한계점

시사점:
미세 조정 과정에서 LLM의 안전성 저하 문제를 해결하는 새로운 프레임워크 제시.
안전성 관련 부분 고정 및 널 공간 프로젝터를 활용하여 안전성 유지.
다양한 모델 및 작업에 대한 실험을 통해 기존 방법보다 우수한 성능 입증.
Llama-2-7B-Chat 모델에서 유해성 감소 및 정확도 향상.
한계점:
논문에서 구체적인 한계점 언급 없음.
👍