Beyond I'm Sorry, I Can't: Dissecting Large Language Model Refusal

Created by

Haebom

저자

Nirmalendu Prakash, Yeo Wei Jie, Amir Abdullah, Ranjan Satapathy, Erik Cambria, Roy Ka Wei Lee

💡 개요

본 연구는 대규모 언어 모델(LLM)의 유해한 프롬프트에 대한 거부 반응의 내부 원인을 파악하기 위해 두 가지 공개 모델(Gemma-2-2B-IT, LLaMA-3.1-8B-IT)을 분석했습니다. 잔차 스트림 활성화에 훈련된 희소 자동 인코더(SAE)를 활용하여 거부 반응을 매개하는 특징들을 식별하고, 이를 제거했을 때 모델이 거부에서 순응으로 전환되는 것을 관찰함으로써 거부 메커니즘을 해부했습니다. 이 과정에서 거부 결정에 중요한 특징 세트와 이들의 상호작용을 밝혀냈습니다.

🔑 시사점 및 한계

•

LLM의 안전 행동, 특히 유해 프롬프트에 대한 거부가 내부적인 특정 신경망 특징 집합에 의해 촉발됨을 실증적으로 보여주었습니다.

•

희소 자동 인코더(SAE)의 해석 가능한 잠재 공간을 통해 거부 메커니즘을 세밀하게 감사하고, 특정 특징을 조작하여 모델의 안전 행동을 유도하거나 약화시킬 수 있음을 시사합니다.

•

발견된 특징 중 일부는 초기 특징이 억제될 때까지 비활성 상태를 유지하며, 이는 안전 메커니즘의 다층적이고 상호 의존적인 특성을 보여줍니다.

•

본 연구에서 제시된 방법론은 특정 모델과 SAE 구조에 의존적이므로, 다른 모델 아키텍처나 훈련 방식에 대한 일반화 가능성 검증이 필요하며, 발견된 특징이 실제 유해한 콘텐츠 생성에 대한 완전한 통제력을 의미하는 것은 아닙니다.

PDF 보기

Made with Slashpage