본 논문은 GPT 계열 모델의 요약 작업 적응 과정을 분석하는 해석 가능성 프레임워크를 제시합니다. 사전 훈련된 모델과 미세 조정된 모델 간의 차등 분석을 통해 주의 패턴과 내부 활성화의 변화를 정량화하여 모델 아키텍처 내의 "요약 회로"를 찾습니다. 특히 중간 레이어(2, 3, 5 레이어)에서 주의 집중 헤드의 62%가 엔트로피 감소를 보이며 정보 선택에 대한 집중화를 나타냄을 발견했습니다. 이렇게 확인된 회로에 대한 LoRA 적응을 통해 표준 LoRA 미세 조정보다 적은 훈련 에포크로 성능 향상을 달성함을 보여줍니다. 이 연구는 블랙박스 평가와 기계적 이해 간의 간극을 메우며, 신경망이 요약 과정에서 정보 선택 및 압축을 수행하는 방법에 대한 통찰력을 제공합니다.