Reasoning Language Model(LLM)의 계산 효율성을 높이기 위해, 과제의 복잡성과 모델의 능력에 따라 단순 응답과 장문 추론 중 하나를 선택적으로 사용하는 학습 가능한 프레임워크 Thinkless를 제안합니다. 강화 학습 기반으로, 간결한 응답을 위한 제어 토큰과 상세 추론을 위한 제어 토큰을 사용합니다. DeGRPO 알고리즘을 통해 제어 토큰 손실과 응답 손실을 분리하여 학습을 안정화하고, 기존 GRPO에서 관찰되는 모델 붕괴를 방지합니다. Minerva Algebra, MATH-500, GSM8K 등 여러 벤치마크에서 장문 추론 사용을 50%~90% 감소시키며 LLM의 효율성을 크게 향상시켰습니다.