본 논문은 희소 오토인코더(SAE)를 시각-언어 모델(VLM)에 적용하여, AI 안전에 필수적인 해석 가능성과 조작 가능성을 향상시키는 연구를 제시한다. CLIP과 같은 VLM의 시각 표현에서 뉴런 수준의 단일 의미성(monosemanticity)을 평가하기 위한 포괄적인 프레임워크를 개발하고, 대규모 사용자 연구를 기반으로 한 벤치마크를 제안한다. 실험 결과, VLM에 훈련된 SAE가 개별 뉴런의 단일 의미성을 유의미하게 향상시켰으며, 희소성과 넓은 잠재 변수가 가장 큰 영향을 미치는 것으로 나타났다. 또한, SAE 개입을 CLIP의 비전 인코더에 적용하여 기본 언어 모델을 수정하지 않고도 LLaVA와 같은 멀티모달 LLM의 출력을 직접 제어할 수 있음을 입증했다.