Prisma: An Open Source Toolkit for Mechanistic Interpretability in Vision and Video
Created by
Haebom
저자
Sonia Joseph, Praneet Suresh, Lorenz Hufe, Edward Stevinson, Robert Graham, Yash Vadi, Danilo Bzdok, Sebastian Lapuschkin, Lee Sharkey, Blake Aaron Richards
개요
본 논문은 비전 메커니즘 해석성 연구를 가속화하기 위해 설계된 오픈소스 프레임워크인 Prisma를 제시합니다. Prisma는 75개 이상의 비전 및 비디오 변환기를 접근할 수 있는 통합 툴킷, Sparse Autoencoder(SAE), 트랜스코더 및 크로스코더 훈련 지원, 80개 이상의 사전 훈련된 SAE 가중치, 활성화 캐싱, 회로 분석 도구, 시각화 도구 및 교육 자료를 제공합니다. 언어 SAE보다 훨씬 낮은 스파스 패턴을 나타내는 효과적인 비전 SAE와 SAE 재구성이 모델 손실을 감소시키는 경우가 있다는 놀라운 결과를 제시하며, 비전 모델 내부 이해를 위한 새로운 연구 방향을 제시하고 진입 장벽을 낮춥니다.