Cet article fournit une base théorique rigoureuse pour l'arithmétique des tâches, une technique puissante permettant de fusionner plusieurs modèles affinés. Malgré le succès empirique de l'arithmétique des tâches existante, une explication théorique claire de son efficacité et de ses conditions d'applicabilité faisait défaut. Cet article aborde cette question en établissant une relation entre le vecteur de tâches et le gradient de la perte de tâches. Sous une descente de gradient standard, le vecteur de tâches généré par l'affinage à une époque donnée est exactement égal au gradient négatif de la perte multiplié par le taux d'apprentissage. Ce résultat est approximativement identique dans un environnement multi-époques, et nous démontrons que l'erreur peut être explicitement bornée pour les réseaux à propagation directe. Une analyse expérimentale sur sept benchmarks de vision démontre que le gradient de la première époque domine la trajectoire d'affinage, tant en norme qu'en direction. Cela suggère que la fusion de modèles affinés à une époque donnée peut atteindre des performances comparables à celles des modèles entièrement convergés. En conclusion, cette étude reformule l’arithmétique des tâches comme une forme d’apprentissage multitâche approximatif, fournissant des preuves claires de son efficacité et soulignant le rôle important de la dynamique de formation précoce dans la fusion des modèles.