Sign In

Interpreting CLIP with Hierarchical Sparse Autoencoders

Created by
  • Haebom
Category
Empty

저자

Vladimir Zaigrajew, Hubert Baniecki, Przemyslaw Biecek

개요

본 논문은 다중 모달 표현의 이해에 유용한 희소 자동 인코더(SAE)를 개선하여, 대규모 비전-언어 모델(예: CLIP, SigLIP)의 해석 및 제어를 향상시키는 새로운 아키텍처인 Matryoshka SAE (MSAE)를 제안합니다. MSAE는 기존 SAE의 재구성 품질과 희소성을 동시에 최적화하는 한계를 극복하기 위해, 여러 세분화 수준에서 계층적 표현을 동시에 학습하는 방법을 사용합니다. CLIP에 대한 실험 결과, MSAE는 0.99의 코사인 유사도와 0.1 미만의 분산 미설명 비율을 달성하면서 약 80%의 희소성을 유지하여 최첨단 성능을 보였습니다. 또한, CelebA와 같은 하위 작업에서 개념 기반 유사도 검색 및 편향 분석을 수행하기 위해 CLIP 표현에서 120개 이상의 의미 개념을 추출하여 MSAE의 유용성을 입증했습니다.

시사점, 한계점

시사점:
기존 SAE의 재구성 품질과 희소성 간의 상충 문제를 해결하는 새로운 아키텍처 MSAE 제안.
CLIP에서 최첨단 Pareto frontier 달성 (높은 재구성 품질과 높은 희소성 동시 확보).
MSAE를 이용한 CLIP의 해석 및 제어 가능성 입증 (개념 기반 유사도 검색 및 편향 분석).
대규모 비전-언어 모델의 해석 및 제어에 대한 새로운 접근 방식 제시.
한계점:
MSAE의 성능이 CLIP에 특화되어 다른 모델에 대한 일반화 성능은 추가 연구가 필요.
추출된 120개 이상의 의미 개념의 포괄성 및 일반화 가능성에 대한 추가 검증 필요.
다양한 하위 작업에서의 MSAE의 효용성에 대한 추가적인 실험 및 분석 필요.
👍