본 연구는 체계적으로 도입된 입력 섭동 하에서 수학 문제 해결 과제에 대한 대규모 언어 모델(LLM)의 추론 강건성을 조사합니다. GSM8K 데이터셋을 제어된 시험대(testbed)로 사용하여, 최첨단 모델이 네 가지 범주의 프롬프트 섭동(무관한 맥락, 병리적 지시, 사실적으로 관련 있지만 불필요한 맥락, 그리고 후자 두 가지의 조합)에 직면했을 때 논리적 일관성과 정확성을 얼마나 잘 유지하는지 평가합니다. 13개의 오픈소스 및 클로즈드소스 LLM에 대해 실시한 실험 결과, 모델의 컨텍스트 창 내에 무관한 맥락을 도입하면 성능이 크게 저하되는 것으로 나타났으며, 이는 필수적인 세부 정보와 외부적인 세부 정보를 구별하는 것이 여전히 시급한 과제임을 시사합니다. 놀랍게도, 성능 저하는 추론에 필요한 단계 수로 측정한 추론 과제의 복잡성에 비교적 민감하지 않으며, 모델 크기와 엄격하게 상관관계가 없습니다. 또한, 명시적인 프롬프트 없이도 특정 섭동이 우연히 사고연쇄(chain-of-thought)와 같은 추론 동작을 유발하는 것을 관찰했습니다. 이러한 결과는 현재 LLM의 중요한 취약성을 강조하고, 노이즈가 많고, 오해의 소지가 있으며, 맥락이 밀집된 입력에 대한 향상된 강건성의 필요성을 강조하여 실제 응용 분야에서 더욱 탄력 있고 신뢰할 수 있는 추론을 위한 길을 열어줍니다.