# Beyond I'm Sorry, I Can't: Dissecting Large Language Model Refusal

### 저자

Nirmalendu Prakash, Yeo Wei Jie, Amir Abdullah, Ranjan Satapathy, Erik Cambria, Roy Ka Wei Lee

### 💡 개요

본 연구는 대규모 언어 모델(LLM)의 유해한 프롬프트에 대한 거부 반응의 내부 원인을 파악하기 위해 두 가지 공개 모델(Gemma-2-2B-IT, LLaMA-3.1-8B-IT)을 분석했습니다. 잔차 스트림 활성화에 훈련된 희소 자동 인코더(SAE)를 활용하여 거부 반응을 매개하는 특징들을 식별하고, 이를 제거했을 때 모델이 거부에서 순응으로 전환되는 것을 관찰함으로써 거부 메커니즘을 해부했습니다. 이 과정에서 거부 결정에 중요한 특징 세트와 이들의 상호작용을 밝혀냈습니다.

### 🔑 시사점 및 한계

- LLM의 안전 행동, 특히 유해 프롬프트에 대한 거부가 내부적인 특정 신경망 특징 집합에 의해 촉발됨을 실증적으로 보여주었습니다.

- 희소 자동 인코더(SAE)의 해석 가능한 잠재 공간을 통해 거부 메커니즘을 세밀하게 감사하고, 특정 특징을 조작하여 모델의 안전 행동을 유도하거나 약화시킬 수 있음을 시사합니다.

- 발견된 특징 중 일부는 초기 특징이 억제될 때까지 비활성 상태를 유지하며, 이는 안전 메커니즘의 다층적이고 상호 의존적인 특성을 보여줍니다.

- 본 연구에서 제시된 방법론은 특정 모델과 SAE 구조에 의존적이므로, 다른 모델 아키텍처나 훈련 방식에 대한 일반화 가능성 검증이 필요하며, 발견된 특징이 실제 유해한 콘텐츠 생성에 대한 완전한 통제력을 의미하는 것은 아닙니다.

---

[PDF 보기](https://arxiv.org/pdf/2509.09708)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).
