Position: Mechanistic Interpretability Should Prioritize Feature Consistency in SAEs
Created by
Haebom
저자
Xiangchen Song, Aashiq Muhamed, Yujia Zheng, Lingjing Kong, Zeyu Tang, Mona T. Diab, Virginia Smith, Kun Zhang
개요
본 논문은 기계적 해석 가능성(MI)에서 스파스 오토인코더(SAE)의 특징 불일치 문제를 다룹니다. SAE는 신경망 활성화를 해석 가능한 특징으로 분해하는 데 사용되지만, 서로 다른 학습 과정에서 학습된 SAE 특징이 일관되지 않다는 문제점이 있습니다. 이 논문은 MI 연구에서 특징의 일관성, 즉 독립적인 실행에서 동등한 특징 집합으로의 신뢰할 수 있는 수렴을 우선시해야 한다고 주장합니다. 쌍별 사전 평균 상관 계수(PW-MCC)를 일관성을 측정하는 지표로 제안하고, 적절한 구조 선택을 통해 높은 일관성(LLM 활성화에 대한 TopK SAE에서 0.80)을 달성할 수 있음을 보여줍니다. 모델 유기체를 사용한 이론적 근거 및 합성 검증을 통해 PW-MCC가 기준 진실 복구에 대한 신뢰할 수 있는 대리 지표임을 확인하고, 학습된 특징 설명의 의미적 유사성과 높은 특징 일관성 간의 강한 상관관계를 실제 LLM 데이터에서도 확인합니다. 마지막으로, MI 분야의 견고한 발전을 위해 특징 일관성을 체계적으로 측정하는 것으로의 전환을 촉구합니다.
시사점, 한계점
•
시사점:
◦
SAE의 특징 일관성을 MI 연구의 중요한 요소로 제시하고, PW-MCC를 측정 지표로 제안.
◦
적절한 구조 선택을 통해 높은 수준의 특징 일관성을 달성 가능함을 실험적으로 증명.
◦
특징 일관성과 학습된 특징 설명의 의미적 유사성 간의 강한 상관관계를 발견.
◦
MI 연구에서 특징 일관성을 체계적으로 측정하는 것의 중요성을 강조.
•
한계점:
◦
제안된 PW-MCC 지표의 일반화 가능성에 대한 추가 연구 필요.
◦
다양한 유형의 신경망 및 데이터셋에 대한 광범위한 실험이 추가적으로 필요.
◦
특징 일관성과 MI의 다른 측면(예: 해석 가능성, 정확성) 간의 상호작용에 대한 추가 분석 필요.