본 연구는 Causal Layer Attribution via Activation Patching (CLAP) 기법을 사용하여 미세 조정된 GPT-2 모델에서 지식 표현의 국소화를 조사합니다. PubMed 초록 9,958개 (간질: 20,595회 언급, EEG: 11,674회 언급, 발작: 13,921회 언급)를 사용하여 두 가지 설정으로 미세 조정된 모델에 대해, 올바른 답변 생성에 중요한 신경망 층을 식별하는 CLAP을 적용했습니다. CLAP은 정답과 오답 활성화를 캐싱하고, 로짓 차이를 계산하여 모델의 선호도를 정량화하고, 오답 활성화를 정답 활성화로 패치하여 복구 정도를 평가합니다. 연구 결과, 첫 번째 피드포워드 층 패치는 56%의 정답 선호도 복구율을 보여 연상 지식이 여러 층에 분포되어 있음을 시사합니다. 최종 출력층 패치는 정확도를 완전히 복원(100% 복구)하여 정의적 지식은 국소적으로 표현됨을 나타냅니다. 정의적 질문에 대한 강력한 정답 로짓 차이는 이러한 국소적 표현을 더욱 뒷받침합니다. 컨볼루션 층 패치의 복구율이 13.6%로 미미한 것은 저수준 특징이 고수준 추론에 미치는 영향이 적음을 시사합니다. 통계 분석 결과, 층별 효과가 유의미함(p<0.01)이 확인되었습니다. 결론적으로, 사실적 지식은 더욱 국소화되고 연상 지식은 분산된 표현에 의존하며, 편집 효과는 작업 유형에 따라 다름을 보여줍니다.