Sign In

BlackboxNLP-2025 MIB Shared Task: Improving Circuit Faithfulness via Better Edge Selection

Created by
  • Haebom
Category
Empty

저자

Yaniv Nikankin, Dana Arad, Itay Itzhak, Anja Reusch, Adi Simhi, Gal Kesten-Pomeranz, Yonatan Belinkov

개요

본 논문은 기계적 해석 가능성 분야의 주요 과제인 회로 발견에 대한 연구를 제시합니다. Mechanistic Interpretability Benchmark (MIB)를 기반으로 하여 회로 발견을 위한 세 가지 주요 개선 사항을 제안합니다. 첫째, 부트스트래핑을 사용하여 일관된 귀인 점수를 가진 엣지를 식별합니다. 둘째, 성능과 충실도 사이의 균형을 맞추기 위해 강력한 양수 점수를 가진 엣지를 우선시하는 간단한 비율 기반 선택 전략을 도입합니다. 셋째, 표준 탐욕 선택을 정수 선형 계획법 공식으로 대체합니다. 제안된 방법들은 여러 MIB 작업과 모델에서 이전 접근 방식을 능가하며 더 충실한 회로를 생성합니다.

시사점, 한계점

시사점:
부트스트래핑을 통한 엣지 식별로 회로 발견의 신뢰성 향상.
비율 기반 선택 전략을 통해 성능과 충실도 간의 균형 확보.
정수 선형 계획법을 활용하여 회로 발견 정확도 향상.
다양한 MIB 작업 및 모델에서 우수한 성능 입증.
한계점:
구체적인 한계점은 논문에서 제시되지 않음.
👍