본 논문은 여러 개의 fine-tuned 모델들을 하나로 합치는 강력한 기법인 task arithmetic에 대한 엄밀한 이론적 기반을 제공합니다. 기존 task arithmetic의 경험적 성공에도 불구하고, 그 효과 및 적용 가능 조건에 대한 명확한 이론적 설명이 부족했습니다. 본 논문은 task vector와 task loss의 gradient 간의 관계를 확립함으로써 이를 해결합니다. 표준 gradient descent 하에서, 한 epoch의 fine-tuning으로 생성된 task vector는 loss의 음의 gradient에 학습률을 곱한 것과 정확히 동일함을 보입니다. 다중 epoch 환경에서는 근사적으로 동일하며, 그 오차는 피드포워드 네트워크에 대해 명시적으로 경계를 지을 수 있음을 증명합니다. 7개의 비전 벤치마크에 대한 실험 분석을 통해, 첫 번째 epoch의 gradient가 norm과 방향 모두에서 fine-tuning trajectory를 지배함을 보여줍니다. 이는 단일 epoch만 fine-tuning된 모델을 합치는 것만으로도 완전히 수렴된 모델을 합친 것과 비슷한 성능을 얻을 수 있음을 시사합니다. 결론적으로 본 연구는 task arithmetic을 근사적인 다중 작업 학습의 한 형태로 재구성하여, 그 효과에 대한 명확한 근거를 제공하고 모델 병합에서 초기 훈련 역학의 중요한 역할을 강조합니다.