본 논문은 표준 NLP 벤치마크가 데이터셋 인공물과 허위 상관관계에서 비롯되는 취약성을 포착하지 못하는 경우가 많다는 점을 지적합니다. 대조 집합(contrast sets)은 의사결정 경계 근처에서 모델을 평가하여 이러한 격차를 해소하지만, 전통적으로 생성하기 어렵고 다양성이 부족하다는 단점이 있습니다. 이 연구는 대규모 언어 모델을 활용하여 다양한 대조 집합을 자동으로 생성하는 방법을 제시합니다. SNLI 데이터셋을 사용하여 3,000개의 예제로 구성된 대조 집합을 만들고, 모델의 견고성을 평가하고 개선했습니다. 이 대조 집합으로 미세 조정한 결과, 체계적으로 변경된 예제에 대한 성능이 향상되었고, 표준 테스트 정확도는 유지되었으며, 새로운 변경에 대한 일반화 성능도 소폭 향상되었습니다. 이 자동화된 접근 방식은 NLP 모델을 평가하고 개선하며, 체계적인 일반화 문제를 해결하고, 실제 응용 프로그램에서 견고성을 향상시키는 확장 가능한 솔루션을 제공합니다.