본 논문은 머신러닝 모델의 신뢰성과 성능 향상을 위해 훈련 데이터의 질 향상에 초점을 맞추고 있습니다. 특히, 훈련 데이터 내의 잘못 라벨링된 샘플과 이상치 샘플을 식별하는 데 영향 기반 신호(Self-Influence, Average Absolute Influence, Marginal Influence, GD-class 등)의 효과를 비교 평가합니다. 이러한 신호는 별도의 이상치 탐지기를 사용하지 않고도 훈련 과정 중에 문제 있는 샘플을 식별할 수 있는 잠재력을 가지고 있습니다. 다양한 데이터 유형(이미지, 표 형식 데이터)과 딥러닝 모델(scratch부터 학습, foundation 모델 활용)에 대해 TraceIn을 영향 추정기로 사용하여 광범위한 실험을 수행했습니다. 실험 결과 Self-Influence와 같은 신호는 잘못 라벨링된 샘플을 효과적으로 탐지하지만, 기존 신호는 이상치를 탐지하는 데는 효과적이지 않음을 보였습니다. 이는 기존 신호들이 훈련 역학(훈련 중 샘플의 영향 변화)을 고려하지 않고, 일부 신호는 영향 상쇄 효과(부호 없는 점수의 누적에 의한 영향 점수 0)로 인해 오해의 소지가 있는 영향을 부여하기 때문입니다.