LLMs는 수학적 추론과 같은 복잡한 작업에서 인간과 유사한 성능을 보이지만, 사소한 입력 변화에 대한 수학적 추론의 견고성은 체계적으로 연구되지 않았습니다. MSCR(multi-source candidate replacement)을 제안하여, 임베딩 공간의 코사인 유사성, WordNet 사전, 마스크 언어 모델의 문맥적 예측과 같은 세 가지 정보 소스를 결합하여 의미적으로 유사한 후보를 생성합니다. GSM8K 및 MATH500 벤치마크를 사용하여 대규모 실험을 수행한 결과, 단일 단어 변화만으로도 모든 모델의 정확도가 크게 감소하고, 응답 길이가 증가하여 자원 소비가 늘어난다는 것을 발견했습니다.