Bài báo này phân tích về mặt lý thuyết các nguyên tắc hoạt động của Học tập theo quyết định (DFL), xuất hiện để giải quyết những thách thức trong việc ước tính giá trị kỳ vọng, phương sai và hiệp phương sai của lợi nhuận tài sản không chắc chắn trong khuôn khổ tối ưu hóa phương sai trung bình (MVO) của Markowitz. Chúng tôi nêu bật những hạn chế của các mô hình dự báo dựa trên học máy hiện có, không tính đến mối tương quan giữa các tài sản khi giảm thiểu lỗi bình phương trung bình (MSE) và chứng minh cách DFL khắc phục hạn chế này. Bằng cách phân tích độ dốc của DFL, chúng tôi chứng minh rằng DFL kết hợp các mối tương quan giữa các tài sản vào quá trình học bằng cách cân nhắc các lỗi dựa trên MSE bằng cách nhân chúng với ma trận hiệp phương sai nghịch đảo. Điều này gây ra sai lệch dự báo có hệ thống, ước tính quá cao lợi nhuận của các tài sản được đưa vào và đánh giá quá thấp lợi nhuận của các tài sản bị loại trừ. Tuy nhiên, chúng tôi chứng minh rằng những sai lệch này thực sự góp phần đạt được hiệu suất danh mục đầu tư tối ưu.