본 논문은 대규모 언어 모델(LLM)의 내부 메커니즘 해석을 개선하기 위해, 기존의 개별 뉴런을 개별 의미 개념에 매핑하는 방식의 한계를 극복하는 새로운 해석 및 조작 프레임워크를 제시합니다. 기존 연구들이 뉴런의 다의성(polysemanticity) 문제를 해결하지 못하는 점을 지적하며, 다양한 LLM과 데이터셋을 분석하여 고유 뉴런의 활성화 정도가 특정 개념에 따라 가우시안 분포를 따르는 것을 확인합니다. 이를 바탕으로 뉴런의 활성화 범위를 해석하는 범위 기반 해석(range-based interpretation)을 제안하고, NeuronLens라는 새로운 프레임워크를 개발하여 개념 귀속을 더욱 정확하게 수행하고 의도치 않은 간섭을 줄임으로써 기존의 뉴런 귀속 방식보다 우수한 성능을 보임을 실험적으로 증명합니다.