본 논문은 기계 학습(ML)의 접근성 향상으로 인해 전문 지식 없이 ML 도구를 사용하는 사용자들이 증가하고 있으며, 이로 인해 데이터 유출(data leakage) 문제가 발생하고 있다는 점을 다룬다. 데이터 유출은 의도치 않은 정보가 훈련 데이터에 포함되어 모델 성능 평가에 영향을 미치는 현상으로, 사용자는 이를 인지하지 못하고 과장된 성능을 평가할 수 있다. 본 논문은 ML에서 데이터 유출을 분류하고, ML 워크플로우를 통한 전파 방식, 전이 학습(Transfer Learning)에서의 발생, 그리고 귀납적 ML과 전이적 ML 프레임워크 간의 비교를 통해 데이터 유출 문제를 심층적으로 분석한다. 결론적으로, 강력하고 신뢰할 수 있는 ML 애플리케이션을 위해서는 데이터 유출 문제 해결이 중요함을 강조한다.