본 논문은 대규모 신경망의 특징인 다의미성(polysemanticity)이 언어 모델의 해석성과 안전성에 미치는 영향을 조사한 연구입니다. 소규모 모델(Pythia-70M, GPT-2-Small)을 이용하여 희소 자동 인코더를 활용, 다의미 구조를 분석하고, 프롬프트, 특징, 토큰, 뉴런 수준에서 표적화된 은밀한 개입에 대한 취약성을 평가했습니다. 그 결과, 두 모델 모두 일관된 다의미 위상을 공유하고 있음을 밝혔으며, 이 구조를 이용하여 대규모 블랙박스 지시 조정 모델(LLaMA3.1-8B-Instruct, Gemma-2-9B-Instruct)에 대한 효과적인 개입이 가능함을 보였습니다. 이는 개입의 일반화 가능성과 아키텍처 및 훈련 방식에 걸쳐 지속될 수 있는 안정적이고 전이 가능한 다의미 구조의 존재 가능성을 시사합니다.