본 논문은 최신 대규모 언어 모델(LLM)의 프로그래밍 작업에서의 추론 능력과 견고성을 평가합니다. 기존 연구들이 LLM의 프로그램 출력 예측 정확도에 초점을 맞춘 것과 달리, 본 연구는 예측의 근거가 되는 추론 과정 자체를 평가합니다. 변수 이름 변경, 비교 표현식 반전, if-else 문 교체, for 루프를 while 루프로 변환, 루프 언롤링 등의 의미를 보존하는 코드 변이를 적용하여 6개의 LLM을 평가하고, LiveCodeBench와 CruxEval을 사용하여 예측의 정확성과 견고성을 분석했습니다. 전문가 분석을 통해 정확한 예측이라도 잘못된 추론에 기반한 경우가 많다는 것을 발견했습니다.