Findings of the BlackboxNLP 2025 Shared Task: Localizing Circuits and Causal Variables in Language Models
Created by
Haebom
Category
Empty
저자
Dana Arad, Yonatan Belinkov, Hanjie Chen, Najoung Kim, Hosein Mohebbi, Aaron Mueller, Gabriele Sarti, Martin Tutek
개요
본 논문은 언어 모델(LM)의 특정 동작 구현 방식을 밝히는 기계적 해석 가능성(MI) 연구의 발전을 측정하는 데 어려움이 있다는 문제 의식에서 출발한다. 최근 공개된 Mechanistic Interpretability Benchmark (MIB; Mueller et al., 2025)를 기반으로, BlackboxNLP 2025 Shared Task가 MI 기술의 커뮤니티 차원 재현 가능한 비교를 위해 MIB를 확장했다. 이 공유 작업은 회로 위치화(causal circuit localization)와 인과 변수 위치화(causal variable localization)의 두 가지 트랙으로 구성된다. 회로 위치화 트랙에서는 앙상블 및 정규화 전략을 사용하여 회로 발견에서 상당한 개선을 이루었고, 인과 변수 위치화 트랙에서는 저차원 및 비선형 투영을 사용하여 활성화 벡터를 특징화하는 데 유의미한 성과를 거두었다.
시사점, 한계점
•
시사점:
◦
MI 연구의 표준화된 평가 프레임워크인 MIB를 활용하여 커뮤니티 기반의 MI 기술 비교를 가능하게 함.
◦
앙상블, 정규화 전략, 저차원 및 비선형 투영과 같은 기법들을 통해 회로 및 인과 변수 위치화에서 진전을 보임.
◦
MI 연구의 지속적인 발전을 위한 표준 평가 방법론의 중요성을 강조함.
•
한계점:
◦
참가 팀과 방법의 수가 제한적임. (Circuit localization: 3 teams, 8 methods; Causal variable localization: 1 team, 2 methods)