본 논문은 대규모 언어 모델(LLM)의 추론 경직성(reasoning rigidity) 문제를 다룬다. LLM은 복잡한 추론 과제에서 뛰어난 성능을 보이지만, 익숙한 추론 패턴에 과도하게 의존하여 사용자의 명시적인 지시를 무시하고 잘못된 결론에 도달하는 경향이 있다. 이는 수학 및 논리 퍼즐과 같이 제약 조건 준수가 중요한 영역에서 심각한 문제를 야기한다. 논문에서는 이러한 추론 경직성을 체계적으로 조사하기 위해 전문가가 엄선한 진단 데이터셋인 \dataset{}을 제시한다. 이 데이터셋은 AIME 및 MATH500과 같은 기존 수학 벤치마크의 변형과 익숙한 추론 전략에서 벗어나도록 의도적으로 재설계된 퍼즐을 포함한다. 데이터셋을 이용하여 모델이 익숙한 추론에 의존하여 발생하는 오류 패턴을 세 가지 유형(i) 해석 과부하, (ii) 입력 불신, (iii) 부분적 지시 주의)으로 분류하고, 추론 경직성 완화 연구를 위한 진단 데이터셋을 공개한다.