사전 훈련된 언어 모델에서 희소하고 작업 관련 서브 네트워크를 식별하는 회로 발견은 기계적 해석 가능성의 핵심입니다. 자동 회로 발견(ACDC)은 회로 발견에서 중요한 방법론으로 부상했지만, 대규모 언어 모델에 대한 적용은 계산 비효율성과 과도한 메모리 요구 사항으로 인해 심각하게 제한됩니다. PAHQ(Per Attention Head Quantization)는 각 개별 패칭 작업의 효율성을 최적화하여 ACDC를 가속화하는 새로운 방법입니다. 활성화 패칭과 혼합 정밀도 양자화(MPQ) 간의 근본적인 정렬을 활용하여, PAHQ는 높은 정밀도를 조사된 구성 요소에만 유지하면서 네트워크의 다른 부분의 정밀도를 안전하게 줄일 수 있습니다. PAHQ는 무가속 ACDC에 비해 런타임을 최대 80%까지, 메모리 소비를 최대 30%까지 줄이면서도 충실도를 유지합니다. 또한, 어텐션 계산 메커니즘을 수정하여 기존의 엣지 기반 회로 발견 기술과 쉽게 통합됩니다.