Yaniv Nikankin, Dana Arad, Itay Itzhak, Anja Reusch, Adi Simhi, Gal Kesten-Pomeranz, Yonatan Belinkov
개요
본 논문은 기계적 해석 가능성 분야의 주요 과제인 회로 발견에 대한 연구를 제시합니다. Mechanistic Interpretability Benchmark (MIB)를 기반으로 하여 회로 발견을 위한 세 가지 주요 개선 사항을 제안합니다. 첫째, 부트스트래핑을 사용하여 일관된 귀인 점수를 가진 엣지를 식별합니다. 둘째, 성능과 충실도 사이의 균형을 맞추기 위해 강력한 양수 점수를 가진 엣지를 우선시하는 간단한 비율 기반 선택 전략을 도입합니다. 셋째, 표준 탐욕 선택을 정수 선형 계획법 공식으로 대체합니다. 제안된 방법들은 여러 MIB 작업과 모델에서 이전 접근 방식을 능가하며 더 충실한 회로를 생성합니다.