One-shot Optimized Steering Vectors Mediate Safety-relevant Behaviors in LLMs
Created by
Haebom
저자
Jacob Dunefsky, Arman Cohan
개요
본 논문은 대규모 언어 모델(LLM)의 해석과 제어를 위한 유망한 접근법으로 떠오른 스티어링 벡터(SV)에 대해 다룬다. 기존의 SV 최적화 방법들은 대규모 대조 데이터셋을 필요로 하지만, 이는 구축하기 어렵고, 가짜 상관관계를 포착할 수 있다는 한계가 있다. 본 논문에서는 단일 훈련 예시에 대한 경사 하강법을 통해 SV를 직접 최적화하는 방법을 제안하고, 이러한 SV의 일반화 능력을 체계적으로 조사한다. 여러 SV 최적화 기법을 고려하여, 결과적으로 얻어진 SV들이 여러 모델에서 안전 관련 행동을 효과적으로 매개한다는 것을 발견했다. 특히, 정렬 조작 모델에 대한 실험에서 무해한 예시에 해로운 행동을 유도하는 원샷 SV를 최적화하고, 그 부정을 통해 악의적인 예시에서 해로운 행동을 억제할 수 있음을 보였다. 또한, 거부 억제 실험에서 원샷 최적화된 SV가 입력에 따라 전달되어 Harmbench 공격 성공률 96.9%를 달성함을 보였다. 더 나아가, "출현하는 불일치"에 대한 연구를 확장하여 취약한 코드를 작성하도록 유도하기 위해 최적화된 SV가 관련 없는 개방형 프롬프트에 대해 모델이 해롭게 응답하도록 만드는 것을 보였다. 마지막으로, 원샷 SV 최적화를 사용하여 지시어로 조정된 LLM이 잘못된 정보를 출력하는 것으로부터 회복하는 방법을 조사하고, 이 능력이 모델이 해당 정보가 잘못되었다는 것을 명시적으로 언급하는 것과는 독립적임을 발견했다. 전반적으로, 본 논문의 결과는 단일 예시에 대한 SV 최적화가 LLM의 광범위한 불일치 행동을 매개할 수 있음을 시사한다. 코드는 https://github.com/jacobdunefsky/one-shot-steering-repro 와 https://github.com/jacobdunefsky/one-shot-steering-misalignment 에서 확인할 수 있다.