# WASD: Locating Critical Neurons as Sufficient Conditions for Explaining and Controlling LLM Behavior

### 저자

Haonan Yu, Junhao Liu, Zhenyu Yan, Haoran Lin, Xin Zhang

### 💡 개요

본 논문은 LLM의 행동을 정확하게 제어하기 위한 새로운 프레임워크인 WASD(unWeaving Actionable Sufficient Directives)를 제안합니다. WASD는 토큰 생성을 위한 충분한 신경 조건(sufficient neural conditions)을 식별함으로써 모델의 행동을 설명하고, 이를 통해 LLM의 행동을 효과적으로 제어할 수 있음을 보여줍니다. 실험 결과, WASD는 기존 방법보다 더 안정적이고 정확하며 간결한 설명을 제공하며, 실제적인 행동 제어 가능성을 입증했습니다.

### 🔑 시사점 및 한계

- LLM의 행동을 이해하고 제어하는 데 있어 신경 활성화 패턴을 충분 조건으로 활용하는 새로운 접근 방식의 가능성을 제시합니다.

- 기존의 설명 가능성 기법들이 가지는 한계(높은 비용, 자연어 제어의 어려움, 의미론적 일관성 저하)를 극복할 수 있는 잠재력을 보여줍니다.

- 논문에서 제시된 방법론의 확장성과 다양한 LLM 아키텍처 및 작업에 대한 일반화 가능성에 대한 추가 연구가 필요합니다.

---

[PDF 보기](https://arxiv.org/pdf/2603.18474)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).