본 논문은 기존 기계 독해(MRC) 모델의 견고성 평가가 주로 인공적인 섭동 방법에 의존하는 한계를 지적하며, 위키피디아 편집 이력을 활용하여 자연적으로 발생하는 텍스트 섭동을 기반으로 MRC 모델의 견고성을 평가하는 새로운 프레임워크를 제시합니다. SQUAD 데이터셋과 다양한 모델 아키텍처를 대상으로 실험한 결과, 자연적인 섭동은 사전 훈련된 인코더 언어 모델의 성능 저하를 야기하며, 최첨단 Flan-T5 및 대규모 언어 모델(LLM)도 이러한 오류를 그대로 이어받는다는 것을 확인했습니다. 또한, 자연적인 섭동 또는 인공적인 섭동으로 훈련된 데이터를 사용하여 견고성을 향상시킬 수 있음을 보여주지만, 섭동이 없는 데이터에 대한 성능과의 차이는 여전히 존재함을 밝힙니다.