Sign In

Activation Space Interventions Can Be Transferred Between Large Language Models

Created by
  • Haebom
Category
Empty

저자

Narmeen Oozeer, Dhruv Nathawani, Nirmalendu Prakash, Michael Lan, Abir Harrasse, Amirali Abdullah

개요

본 논문은 AI 모델의 표현 일반성(representation universality)을 활용하여 안전성 개입(safety interventions)을 모델 간에 전이하는 방법을 제시합니다. 학습된 활성화 공간 매핑을 통해 백도어 제거 및 유해 프롬프트 거부와 같은 AI 안전성 과제에서 조향 벡터(steering vectors)를 성공적으로 전이하는 것을 보여줍니다. 또한, 백도어와 관련된 지식을 모델에 내장하여 유용한 기술과 백도어를 분리하는 능력을 평가하는 새로운 과제인 "손상된 기능(corrupted capabilities)"을 제안합니다. Llama, Qwen, Gemma 모델 계열을 대상으로 한 광범위한 실험을 통해, 제안된 방법이 작은 모델을 사용하여 큰 모델을 효율적으로 정렬할 수 있음을 보여주고, 오토인코더 매핑을 이용한 "경량 안전 스위치(lightweight safety switches)"를 통해 모델 동작을 동적으로 전환할 수 있음을 입증합니다.

시사점, 한계점

시사점:
AI 모델 간 안전성 개입 전이 가능성을 실증적으로 보여줌.
작은 모델을 이용한 큰 모델의 효율적인 안전성 향상 가능성 제시.
모델 동작의 동적 전환을 위한 "경량 안전 스위치" 개념 제안.
새로운 AI 안전성 평가 과제인 "손상된 기능" 제시.
한계점:
제안된 방법의 일반화 성능 및 다양한 모델 아키텍처에 대한 적용성에 대한 추가 연구 필요.
"경량 안전 스위치"의 안정성 및 신뢰성에 대한 추가 검증 필요.
실제 세계의 복잡한 안전성 위협에 대한 적용성 검토 필요.
👍