본 논문은 시각-언어 모델(VLMs)의 해석 가능성과 제어 가능성 향상을 위해 희소 자동 인코더(SAEs)를 적용하는 프레임워크를 제시합니다. 특히, CLIP과 같은 VLMs에 SAE를 적용하여 뉴런 수준에서의 단일 의미성(monosemanticity)을 평가하는 포괄적인 방법론을 제안하며, 대규모 사용자 연구 기반의 벤치마크를 활용하여 평가의 신뢰성을 높였습니다. 실험 결과, VLMs에 학습된 SAEs는 개별 뉴런의 단일 의미성을 향상시키며, 희소성과 넓은잠재공간(wide latents)이 중요한 요인임을 밝혔습니다. 더 나아가, CLIP의 시각 인코더에 SAE를 적용하여 기저 모델 수정 없이 다중 모달 LLM 출력(예: LLaVA)을 직접 제어할 수 있음을 보여줍니다. 이는 SAEs가 VLMs의 해석 가능성과 제어 가능성을 향상시키는 비지도 학습 기법으로서 실용적이고 효과적임을 시사합니다. 코드는 https://github.com/ExplainableML/sae-for-vlm 에서 확인 가능합니다.