Bài báo này đề cập đến vấn đề rò rỉ dữ liệu, phát sinh từ khả năng tiếp cận ngày càng tăng của học máy (ML) và việc sử dụng ngày càng nhiều các giao diện thân thiện với người dùng, không yêu cầu kiến thức chuyên môn và chỉ dựa vào các phương pháp "nhấn nút". Rò rỉ dữ liệu xảy ra khi dữ liệu huấn luyện chứa thông tin không mong muốn, ảnh hưởng đến việc đánh giá hiệu suất mô hình, có khả năng dẫn đến ước tính hiệu suất không chính xác. Bài báo này phân loại rò rỉ dữ liệu trong ML và thảo luận về cách nó lan truyền qua các quy trình làm việc ML trong các điều kiện cụ thể. Hơn nữa, chúng tôi nghiên cứu mối liên hệ giữa rò rỉ dữ liệu và các tác vụ cụ thể, xem xét sự xuất hiện của nó trong học chuyển giao và so sánh ML quy nạp tiêu chuẩn với các khuôn khổ ML có thể chuyển giao. Cuối cùng, chúng tôi nhấn mạnh tầm quan trọng của việc giải quyết rò rỉ dữ liệu cho các ứng dụng ML mạnh mẽ và đáng tin cậy.