Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Findings of the BlackboxNLP 2025 Shared Task: Localizing Circuits and Causal Variables in Language Models

Created by
  • Haebom
Category
Empty

저자

Dana Arad, Yonatan Belinkov, Hanjie Chen, Najoung Kim, Hosein Mohebbi, Aaron Mueller, Gabriele Sarti, Martin Tutek

개요

본 논문은 언어 모델(LM)의 특정 동작 구현 방식을 밝히는 기계적 해석 가능성(MI) 연구의 발전을 측정하는 데 어려움이 있다는 문제 의식에서 출발한다. 최근 공개된 Mechanistic Interpretability Benchmark (MIB; Mueller et al., 2025)를 기반으로, BlackboxNLP 2025 Shared Task가 MI 기술의 커뮤니티 차원 재현 가능한 비교를 위해 MIB를 확장했다. 이 공유 작업은 회로 위치화(causal circuit localization)와 인과 변수 위치화(causal variable localization)의 두 가지 트랙으로 구성된다. 회로 위치화 트랙에서는 앙상블 및 정규화 전략을 사용하여 회로 발견에서 상당한 개선을 이루었고, 인과 변수 위치화 트랙에서는 저차원 및 비선형 투영을 사용하여 활성화 벡터를 특징화하는 데 유의미한 성과를 거두었다.

시사점, 한계점

시사점:
MI 연구의 표준화된 평가 프레임워크인 MIB를 활용하여 커뮤니티 기반의 MI 기술 비교를 가능하게 함.
앙상블, 정규화 전략, 저차원 및 비선형 투영과 같은 기법들을 통해 회로 및 인과 변수 위치화에서 진전을 보임.
MI 연구의 지속적인 발전을 위한 표준 평가 방법론의 중요성을 강조함.
한계점:
참가 팀과 방법의 수가 제한적임. (Circuit localization: 3 teams, 8 methods; Causal variable localization: 1 team, 2 methods)
MIB 리더보드가 열려 있어 추가적인 연구와 결과 비교가 필요함.
👍