Cet article souligne que si les modèles d'inférence à grande échelle (MRL) excellent dans les tâches d'inférence complexes, ils souffrent d'un problème de « sur-réflexion », générant des chemins d'inférence excessifs, même pour des problèmes simples. Pour y remédier, nous proposons l'Efficient Dynamic Inference Trimming (EDIT), une nouvelle méthode de mise à l'échelle du temps de test qui concilie les objectifs contradictoires de précision et de concision. EDIT trouve efficacement les chemins d'inférence les plus courts et les plus précis grâce à une génération basée sur des contraintes, en suivant simultanément la longueur et la distribution des réponses afin de sélectionner celles qui atteignent l'équilibre optimal entre concision et précision. Les résultats expérimentaux obtenus sur divers modèles et ensembles de données démontrent qu'EDIT améliore significativement l'efficacité de l'inférence, produisant des résultats concis mais informatifs, améliorant la lisibilité et l'expérience utilisateur.