Este artículo proporciona una base teórica rigurosa para la aritmética de tareas, una técnica eficaz para fusionar múltiples modelos ajustados. A pesar del éxito empírico de la aritmética de tareas existente, ha faltado una explicación teórica clara de su eficacia y condiciones aplicables. Este artículo aborda esta cuestión estableciendo una relación entre el vector de tarea y el gradiente de la pérdida de la tarea. Bajo el descenso de gradiente estándar, el vector de tarea generado por el ajuste fino en una sola época es exactamente igual al gradiente negativo de la pérdida multiplicado por la tasa de aprendizaje. Esto es aproximadamente igual en un entorno multi-época, y demostramos que el error puede acotarse explícitamente para redes de propagación hacia adelante. El análisis experimental en siete puntos de referencia de visión demuestra que el gradiente de la primera época domina la trayectoria de ajuste fino tanto en norma como en dirección. Esto sugiere que la fusión de modelos ajustados en una sola época puede lograr un rendimiento comparable al de los modelos totalmente convergentes. En conclusión, este estudio replantea la aritmética de tareas como una forma de aprendizaje multitarea aproximado, proporcionando evidencia clara de su eficacia y destacando el importante papel de la dinámica de entrenamiento temprano en la fusión de modelos.