본 논문은 대규모 언어 모델(LLM)의 추론 견고성을 평가하기 위한 새로운 합성 벤치마크인 Grade School Math with Distracting Context (GSM-DC)를 제안합니다. GSM-DC는 체계적으로 제어된 무관한 맥락(IC)을 사용하여 기호 추론 그래프를 구성하고, 정밀한 방해 요소 주입을 통해 엄격하고 재현 가능한 평가를 가능하게 합니다. 실험 결과, LLM은 IC에 상당히 민감하며, 추론 경로 선택과 산술 정확도 모두에 영향을 미치는 것으로 나타났습니다. 또한, 강력한 방해 요소를 사용하여 모델을 훈련하면 분포 내 및 분포 외 시나리오 모두에서 성능이 향상됩니다. 마지막으로, 프로세스 보상 모델에 의해 안내되는 단계별 트리 검색 방법을 제안하여 분포 외 조건에서의 견고성을 향상시켰습니다.