Knowing without Acting: The Disentangled Geometry of Safety Mechanisms in Large Language Models

Created by

Haebom

저자

Jinman Wu, Yi Xie, Shen Lin, Shiqian Zhao, Xiaofeng Chen

💡 개요

본 논문은 대규모 언어 모델(LLM)의 안전 메커니즘이 단일한 과정이 아니라, 유해성 인지("아는 것")와 거부 행동("행동하는 것")이라는 두 개의 분리된 축으로 작동한다는 "분리된 안전 가설(DSH)"을 제안합니다. 모델의 깊은 레이어로 갈수록 이 두 축은 서로 독립적으로 진화하며, 이를 통해 "행동 없이 아는" 상태를 만들 수 있음을 보입니다. 이러한 분리를 활용하여 거부 메커니즘을 무력화하는 공격(REA)을 성공적으로 수행하고, Llama3.1과 Qwen2.5 모델 간의 안전 제어 방식 차이를 규명합니다.

🔑 시사점 및 한계

•

LLM의 안전 메커니즘은 유해성 인지와 거부 행동이 분리된 기하학적 구조를 가지며, 이는 모델의 깊이에 따라 독립적으로 진화합니다.

•

모델의 안전 메커니즘을 이해하고 조작하는 새로운 방법론(Double-Difference Extraction, Adaptive Causal Steering)을 제시하여, "행동 없이 아는" 상태를 재현하고 이를 통해 모델의 안전성을 공격하는 REA를 개발했습니다.

•

Llama3.1과 Qwen2.5와 같은 최신 LLM에서 안전 제어 방식에 근본적인 아키텍처 차이(명시적 의미론적 제어 vs. 잠재적 분산 제어)가 존재함을 발견했습니다.

•

제안된 방법론이 특정 LLM 아키텍처에 얼마나 잘 일반화되는지에 대한 추가 연구가 필요하며, REA와 같은 공격에 대한 방어 메커니즘 연구가 요구됩니다.

PDF 보기

Made with Slashpage