Sign In

Efficient Automated Circuit Discovery in Transformers using Contextual Decomposition

Created by
  • Haebom
Category
Empty

저자

Aliyah R. Hsu, Georgia Zhou, Yeshwanth Cherapanamjeri, Yaxuan Huang, Anobel Y. Odisho, Peter R. Carroll, Bin Yu

개요

본 논문은 대규모 언어 모델의 내부 작동 원리를 해석하기 위한 효율적인 자동화된 기계적 해석 방법인 Contextual Decomposition for Transformers (CD-T)를 제시합니다. 기존의 자동화된 회로 발견 방법들은 활성화 패칭이나 그 근사치에 의존하여 특정 작업에 대한 모델의 하위 그래프(회로)를 식별하는데, 느린 실행 시간, 근사 오류, 그리고 영이 아닌 기울기와 같은 특정 지표 요구사항 등의 문제점을 가지고 있습니다. CD-T는 모델 특징의 기여도를 분리하는 수학적 방정식 집합으로 구성되어 있으며, 모델의 계산 그래프 내 모든 노드의 기여도를 재귀적으로 계산하고 가지치기를 통해 회로 발견 실행 시간을 기존 최고 수준의 기준 모델보다 수 시간에서 수 초로 단축합니다. 세 가지 표준 회로 평가 데이터셋(간접 목적어 식별, 크기 비교, docstring 완성)에서 CD-T는 ACDC 및 EAP보다 우수한 성능을 보이며, 낮은 실행 시간에서 평균 97%의 ROC AUC로 수동 회로를 더 잘 복구합니다. 또한, CD-T 회로의 충실도가 무작위적인 우연에 기인하지 않음을 보여주고, 원래 모델 크기의 최대 60%에 달하는 무작위 회로보다 80% 더 충실함을 입증합니다. 마지막으로, CD-T 회로는 모든 작업에서 기준 모델보다 적은 노드를 사용하여 원래 모델의 동작을 완벽하게 복제(충실도 = 1)할 수 있음을 보여줍니다.

시사점, 한계점

시사점:
대규모 언어 모델의 기계적 해석을 위한 효율적이고 정확한 새로운 방법(CD-T) 제시.
기존 방법들보다 훨씬 빠른 실행 시간 (수 시간에서 수 초로 단축).
높은 정확도 (평균 97% ROC AUC).
원래 모델의 동작을 적은 노드로 완벽하게 복제 가능.
attention head 수준의 세밀한 회로 발견 가능.
무작위 회로보다 훨씬 높은 충실도.
한계점:
현재는 Transformer 모델에만 적용 가능. 다른 아키텍처에 대한 일반화 필요.
CD-T의 수학적 방정식의 직관적인 해석 및 설명이 추가적으로 필요할 수 있음.
대규모 모델에 대한 적용 시 메모리 및 계산 자원 소모에 대한 추가적인 연구 필요.
실제 모델의 복잡한 동작을 완전히 설명하는 데 필요한 회로의 크기 및 복잡도에 대한 추가적인 연구 필요.
👍