본 논문은 대규모 언어 모델(LLM)의 수리 추론 능력과 지시사항 준수 능력 간의 상충 관계를 탐구합니다. 복잡한 수학 문제 해결 능력이 뛰어난 최신 모델들도 자연어 지시사항을 따르는 데 어려움을 겪는다는 점을 지적하며, 이를 평가하기 위한 새로운 벤치마크 MathIF를 제시합니다. 실험 결과, 추론 능력 향상을 위해 모델을 확장할수록 지시사항 준수 능력이 저하되는 경향을 보이며, 특히 생성 길이가 길어질수록 그 경향이 심해짐을 밝힙니다. 간단한 조정을 통해 지시사항 준수 능력을 일부 회복할 수 있지만, 그럴 경우 추론 성능이 저하되는 트레이드오프가 발생합니다. 본 연구는 현재 LLM 훈련 방식의 근본적인 한계를 지적하고, 지시사항을 더 잘 고려하는 추론 모델의 필요성을 강조합니다. MathIF의 코드와 데이터는 공개적으로 제공됩니다.