본 연구는 일반적인 작업에 대한 언어 모델의 미세 조정이 기저 메커니즘을 향상시킨다는 이전 연구 결과에도 불구하고, 악성 데이터에 대한 미세 조정의 영향과 그에 따른 메커니즘 변화에 대한 이해가 부족하다는 점을 지적합니다. 본 연구는 악성 미세 조정 중 모델 메커니즘의 변화를 조사하고 주요 손상 메커니즘을 식별합니다. 또한 손상된 모델을 원래 데이터셋으로 재훈련한 후의 변화를 분석하고, 손상된 모델을 미세 조정한 후 원래 메커니즘을 재학습하는 신경가소성 행동을 관찰합니다. 주요 연구 결과는 다음과 같습니다: (i) 기저 메커니즘은 작업별 미세 조정을 통해 증폭되며, 이는 더 긴 에포크로 일반화될 수 있습니다. (ii) 악성 미세 조정을 통한 모델 손상은 특정 회로 구성 요소에 국한됩니다. (iii) 모델은 깨끗한 데이터셋으로 손상된 모델을 재훈련할 때 신경가소성을 보이며 원래 모델 메커니즘을 재구성합니다.