Prisma: An Open Source Toolkit for Mechanistic Interpretability in Vision and Video
Created by
Haebom
저자
Sonia Joseph, Praneet Suresh, Lorenz Hufe, Edward Stevinson, Robert Graham, Yash Vadi, Danilo Bzdok, Sebastian Lapuschkin, Lee Sharkey, Blake Aaron Richards
개요
Prisma는 비전 기계적 해석성 연구를 가속화하기 위해 설계된 오픈소스 프레임워크입니다. 75개 이상의 비전 및 비디오 트랜스포머에 대한 통합 툴킷, SAE(sparse autoencoder), 트랜스코더 및 크로스코더 훈련 지원, 80개 이상의 사전 훈련된 SAE 가중치, 활성화 캐싱, 회로 분석 도구 및 시각화 도구, 교육 자료 등을 제공합니다. 본 연구는 효과적인 비전 SAE가 언어 SAE보다 훨씬 낮은 스파스 패턴을 나타낼 수 있으며, 경우에 따라 SAE 재구성이 모델 손실을 감소시킬 수 있다는 놀라운 결과를 보여줍니다. Prisma는 비전 모델 내부에 대한 이해를 위한 새로운 연구 방향을 가능하게 하고 이 신흥 분야의 진입 장벽을 낮춥니다.
시사점, 한계점
•
시사점:
◦
비전 기계적 해석성 연구를 위한 오픈소스 프레임워크 제공으로 연구 접근성 향상.
◦
다양한 비전 및 비디오 트랜스포머, 사전 훈련된 SAE 가중치, 분석 및 시각화 도구 제공.