Dans cet article, nous proposons un framework Thinkless, qui utilise sélectivement des réponses concises pour les problèmes simples et des inférences longues pour les problèmes complexes, afin de résoudre le problème d'efficacité de calcul du Modèle de Langage de Raisonnement (RLM), lequel affiche d'excellentes performances sur les tâches nécessitant des inférences complexes. Thinkless est entraîné par apprentissage par renforcement et utilise deux jetons de contrôle, l'un pour les réponses concises et l'autre pour les inférences détaillées. L'algorithme principal, DeGRPO (Decoupled Group Relative Policy Optimization), sépare la perte de jetons de contrôle et la perte de réponse afin de stabiliser l'entraînement et d'améliorer les performances. Les résultats expérimentaux montrent que l'efficacité est améliorée en réduisant l'utilisation des inférences longues de 50 % à 90 % sur des benchmarks tels que Minerva Algebra, MATH-500 et GSM8K.