본 논문은 허위 상관관계에 대한 강건성 평가를 위한 기존 벤치마크의 오류를 지적합니다. 기존의 일반적인 생각과 달리, 허위 상관관계에 의존하는 모델이 항상 OOD(out-of-distribution) 성능이 저조한 것은 아니며, 오히려 in-distribution에서 좋은 성능을 보이는 모델이 OOD에서도 좋은 성능을 보이는 경우가 많다는 것을 실험적으로 확인했습니다. 이는 기존 벤치마크들이 허위 상관관계의 변화를 충분히 고려하지 못하고 잘못 정의되어 있기 때문이라고 주장합니다. 따라서, OOD 일반화 성능을 제대로 평가하기 위해서는 허위 상관관계의 변화를 고려한 새로운 벤치마크가 필요하며, in-distribution과 OOD 정확도 간의 강한 양의 상관관계(accuracy on the line)를 관찰해서는 안 된다고 주장합니다. 논문은 허위 상관관계에 대한 강건성을 제대로 평가하는 방법과 향후 벤치마크 설계 전략을 제시합니다.