본 논문은 모델의 성능 저하를 야기할 것으로 예상되는 모순된 상관관계(spurious correlations)가 분포 외(out-of-distribution, OOD) 일반화 성능에 미치는 영향을 연구합니다. 기존 연구와 달리, 많은 OOD 일반화 벤치마크에서 일반적인 경험적 위험 최소화(empirical risk minimization, ERM)가 가장 높은 OOD 정확도를 달성하고, 분포 내(in-distribution) 정확도 향상이 OOD 정확도 향상으로 이어지는 "정확도 일직선 현상(accuracy on the line)"이 관찰됩니다. 이는 모순된 상관관계의 해로운 영향에 대한 기존의 예측과 상반되는 결과입니다. 본 논문은 이러한 현상이 OOD 일반화에 해로운 모순된 상관관계의 변화를 포함하지 않는 잘못 지정된 OOD 데이터셋의 인공물임을 밝힙니다. 따라서 현재의 연구 방식은 실제로 모순된 신호를 제거하려는 노력 없이 "강건성"을 평가하고 있으며, 본 논문은 이러한 문제가 발생하는 시점과 해결 방법을 제시합니다. 주요 기여는 (i) 모순된 특징에 대한 모델의 의존성을 드러내는 분포 이동에 대한 필요충분조건을 유도하고, 이 조건이 충족될 때 "정확도 일직선 현상"이 사라짐을 보임, (ii) 주요 OOD 데이터셋을 감사하여 대부분 여전히 "정확도 일직선 현상"을 보이고 있음을 확인하고 이는 강건성 평가를 위한 잘못된 지정임을 제시, (iii) 잘 지정된 몇몇 데이터셋을 분류하고, 자연적 개입(예: 팬데믹) 데이터셋 식별 등의 일반화 가능한 설계 원칙을 요약하여 향후 잘 지정된 벤치마크를 위한 지침을 제공하는 것입니다.