# AIPsy-Affect: A Keyword-Free Clinical Stimulus Battery for Mechanistic Interpretability of Emotion in Language Models

### 저자

Michael Keeman

### 💡 개요

이 논문은 대규모 언어 모델(LLM)에서 감정의 기계적 해석 연구에 있어서 단어 자체에 의존하는 기존 방식의 한계를 지적합니다. 이를 해결하기 위해, 플러처크의 8가지 기본 감정 각각을 직접적인 감정 단어 없이 이야기 상황만으로 유발하는 480개의 임상 자극 데이터셋인 AIPsy-Affect를 제안합니다. 이 데이터셋은 감정 단어의 존재와 감정 자체를 분리하여 LLM의 감정 처리 메커니즘에 대한 보다 정확한 해석을 가능하게 합니다.

### 🔑 시사점 및 한계

- **감정 단어와 감정 표현의 분리:** AIPsy-Affect 데이터셋은 LLM이 감정 단어 자체를 인식하는 것인지, 아니면 실제 감정을 이해하고 처리하는 것인지 명확하게 구분할 수 있게 함으로써 기계적 해석 연구의 신뢰성을 높입니다.

- **정교한 감정 회로 분석 지원:** 선형 프로빙, 활성화 패칭, 희소 오토인코더(SAE) 특징 분석, 인과적 제거, 제어 벡터 추출 등 다양한 기계적 해석 기법을 감정 단어의 혼란 없이 적용할 수 있어, LLM의 감정 관련 내부 표현을 더 깊이 이해하는 데 기여합니다.

- **데이터셋의 임상적 유효성 및 확장성:** 본 연구는 기존 데이터셋을 4배 확장하고, 임상적 타당도를 확보했으며, MIT 라이선스로 공개하여 관련 연구 커뮤니티의 발전을 촉진합니다.

---

[PDF 보기](https://arxiv.org/pdf/2604.23719)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).
