Cet article analyse théoriquement les principes de fonctionnement de l'apprentissage piloté par la décision (DFL), issu du cadre d'optimisation moyenne-variance (MVO) de Markowitz, afin d'estimer l'espérance mathématique, la variance et la covariance des rendements incertains des actifs. Nous soulignons les limites des modèles de prévision existants basés sur l'apprentissage automatique, qui ne tiennent pas compte des corrélations entre les actifs lors de la minimisation de l'erreur quadratique moyenne (EQM). Nous démontrons que l'apprentissage piloté par la décision intègre les corrélations entre les actifs dans le processus d'apprentissage en pondérant les erreurs de prévision basées sur l'EQM en les multipliant par la matrice de covariance inverse. Ce faisant, l'apprentissage piloté par la décision crée des biais systématiques qui surestiment les rendements des actifs inclus dans un portefeuille et sous-estiment ceux exclus. Nous démontrons que ce biais explique pourquoi l'apprentissage piloté par la décision obtient une performance de portefeuille supérieure malgré des erreurs de prévision plus élevées. En d'autres termes, nous soulignons que les biais stratégiques sont une caractéristique, et non un défaut.