본 논문은 다단계(pretraining, fine-tuning, adaptation/alignment)로 개발되는 현대 AI 시스템의 책임 소재 문제를 다룹니다. 배포된 모델의 성공 또는 실패 시 어떤 단계가 얼마나 책임이 있는지 추적하는 "책임 귀속 문제"를 제기하고, 특정 단계의 업데이트가 없었다면 모델의 행동이 어떻게 달라졌을지를 묻는 반사실적 질문에 답하는 일반적인 프레임워크를 제안합니다. 이 프레임워크 내에서 모델을 재훈련하지 않고도 학습률 스케줄, 모멘텀, 가중치 감소 등 모델 최적화 역학의 주요 측면과 데이터를 고려하여 각 단계의 효과를 효율적으로 정량화하는 추정기를 제시합니다. 이미지 분류 및 텍스트 독성 감지 작업에서 각 단계의 책임을 성공적으로 정량화하고, 귀속 결과를 바탕으로 잘못된 상관관계를 식별하고 제거하는 것을 보여줍니다. 이 접근 방식은 모델 분석을 위한 실용적인 도구를 제공하며, 더욱 책임감 있는 AI 개발을 위한 중요한 발걸음을 나타냅니다.