본 논문은 대규모 언어 모델(LLM)의 수학적 추론 능력과 지시사항 준수 능력 간의 상충 관계를 탐구하는 연구입니다. 복잡한 수학 문제 해결 능력이 향상된 모델일수록 사용자 지시사항을 따르는 능력이 떨어지는 경향을 보이는 것을 밝히고, 이를 평가하기 위한 새로운 벤치마크인 MathIF를 제시합니다. 특히, 장문의 사고 과정을 이용하거나 강화 학습으로 훈련된 모델에서 이러한 현상이 두드러지며, 생성 길이가 길어질수록 지시사항 준수율이 저하되는 것을 발견했습니다. 간단한 개입을 통해 지시사항 준수율을 향상시킬 수 있지만, 그럴 경우 추론 성능이 저하되는 문제가 발생합니다. 본 연구는 현재 LLM 훈련 방식의 근본적인 한계를 지적하고, 지시사항을 더 잘 인식하는 추론 모델의 필요성을 강조합니다. 코드와 데이터는 공개되어 있습니다.