본 논문은 머신러닝(ML)의 접근성 향상으로 인해 전문 지식 없이 ML 도구를 사용하는 사용자들이 늘어나면서 발생하는 데이터 유출 문제를 다룹니다. 사용자의 부족한 이해로 인해 데이터 유출이 발생하고, 이는 모델 성능 평가의 오류로 이어져 실제 환경과 다른 낙관적인 성능 추정치를 만들어냅니다. 논문에서는 ML에서 데이터 유출의 종류를 분류하고, ML 워크플로우를 통한 전파 방식, 전이 학습에서의 발생, 그리고 유도적 ML과 전이적 ML 프레임워크 간의 비교를 통해 데이터 유출 문제를 분석합니다. 궁극적으로, 강력하고 신뢰할 수 있는 ML 애플리케이션을 위해 데이터 유출 문제 해결의 중요성을 강조합니다.