Cet article analyse théoriquement les principes de fonctionnement de l'apprentissage piloté par la décision (DFL), né pour relever les défis de l'estimation de la valeur espérée, de la variance et de la covariance des rendements d'actifs incertains dans le cadre de l'optimisation moyenne-variance (MVO) de Markowitz. Nous soulignons les limites des modèles de prévision existants basés sur l'apprentissage automatique, qui ne tiennent pas compte des corrélations entre les actifs lors de la minimisation de l'erreur quadratique moyenne (EQM), et démontrons comment l'apprentissage piloté par la décision (DFL) surmonte cette limitation. En analysant le gradient de l'apprentissage piloté par la décision (DFL), nous démontrons que l'apprentissage piloté par la décision intègre les corrélations entre les actifs dans le processus d'apprentissage en pondérant les erreurs basées sur l'EQM en les multipliant par la matrice de covariance inverse. Cela induit des biais de prévision systématiques qui surestiment les rendements des actifs inclus et sous-estiment ceux des actifs exclus. Cependant, nous démontrons que ces biais contribuent réellement à l'obtention d'une performance optimale du portefeuille.