본 논문은 머신러닝 모델이 각 클래스를 정의하는 요소를 명확히 이해하도록 학습시키는 것이 중요함을 강조합니다. 기존 연구들은 데이터 또는 오류 분석에만 의존하여 데이터셋에 존재하는 허위 상관관계를 식별하는 데 집중했으나, 검증 또는 훈련 세트의 반례에서 드러나지 않는 모델이 학습한 허위 상관관계는 찾아낼 수 없었습니다. 본 논문에서는 이러한 한계를 극복하기 위해 모델의 예측 분석 대신 의사결정 메커니즘인 모델의 가중치를 분석하는 새로운 방법인 WASP(Weight-space Approach to detecting Spuriousness)를 제안합니다. WASP는 특정 데이터셋에서 미세 조정되는 동안 기반 모델의 가중치가 다양한 (허위) 상관관계를 포착하는 방향으로 이동하는 것을 분석합니다. 기존 연구와 달리, WASP는 (i) 훈련 또는 검증 반례에서 드러나지 않는 데이터셋의 허위 상관관계를 노출하고, (ii) 이미지 및 텍스트와 같은 다양한 모달리티에서 작동하며, (iii) ImageNet-1k 분류기가 학습한 이전에는 알려지지 않았던 허위 상관관계를 발견할 수 있음을 보여줍니다.