본 논문은 대규모 언어 모델(LLM)의 특징 보편성을 연구합니다. 특히, 서로 다른 모델들이 중간층의 잠재 공간에서 개념을 얼마나 유사하게 나타내는지 조사합니다. LLM 간 특징 비교의 어려움(다의성으로 인한 개별 뉴런의 다중 특징 매핑)을 해결하기 위해, 희소 자동 인코더(SAE)를 이용한 사전 학습 방식을 사용하여 LLM 활성화를 더 해석 가능한 공간으로 변환합니다. 활성화 상관관계를 통해 모델 간 특징 뉴런을 매칭한 후, SAE 특징 공간에서 표상 공간 유사성 측정값을 적용하여 다양한 LLM 간의 유의미한 유사성을 발견함으로써 특징 보편성에 대한 새로운 증거를 제시합니다.