본 논문은 대규모 추론 모델(LRMs)이 불필요하고 장황한 추론 과정을 생성하는 문제를 해결하기 위해, "잘못된 사고(invalid thinking)"라는 핵심 문제점을 제기합니다. 모델이 정답을 도출한 후에도 반복적으로 검증하는 경향이 이 문제의 원인이라고 주장합니다. 이를 해결하고자 효율성과 효과성을 넘어 간결성(Brevity)과 충분성(Sufficiency)이라는 두 가지 세분화된 원칙을 제안합니다. 이 원칙들을 바탕으로, 그룹 상대 정책 최적화(GRPO) 기반의 사후 훈련 방법인 LC-R1을 제시합니다. LC-R1은 전체적인 간결성을 위한 길이 보상과 추론 과정의 잘못된 부분을 제거하기 위한 압축 보상을 결합합니다. 여러 추론 벤치마크에 대한 실험 결과, LC-R1은 정확도가 약 2% 감소하는 것만으로도 시퀀스 길이를 약 50% 감소시켜, 높은 압축률을 우선시하는 파레토 최적점을 달성함을 보여줍니다. 또한 LC-R1의 강건성을 검증하고, 더욱 강력하면서도 계산 효율적인 LRM 개발을 위한 통찰력을 제공합니다. 코드는 https://github.com/zxiangx/LC-R1 에서 공개됩니다.