Cet article souligne que, dans les applications pratiques des modèles de langage à grande échelle (MLH), le choix du modèle approprié doit tenir compte non seulement des performances, mais aussi des coûts opérationnels. En particulier, l'émergence de modèles dotés de capacités d'inférence a encore accru l'écart de coût entre les modes « pensant » (inférence à coût élevé) et « non-pensant » (rapide et économique). Les résultats de notre étude montrent qu'environ 58 % des questions médicales peuvent être répondues avec précision par le seul mode « non-pensant », sans recourir à l'inférence à coût élevé. Cela illustre la dichotomie de la complexité des problèmes et suggère que le routage dynamique des requêtes vers les modes appropriés en fonction de la complexité peut optimiser la précision, la rentabilité et l'expérience utilisateur globale. Sur cette base, nous proposons SynapseRoute, un framework de routage dynamique basé sur l'apprentissage automatique qui attribue intelligemment les requêtes d'entrée aux modes « pensant » ou « non-pensant ». Les résultats expérimentaux obtenus sur plusieurs ensembles de données médicales montrent que SynapseRoute améliore la précision globale (0,8390 contre 0,8272) tout en réduisant le temps d'inférence de 36,8 % et la consommation de jetons de 39,66 % par rapport à l'utilisation du mode « réflexion » seul. De plus, nous démontrons, par une analyse qualitative, qu'une inférence excessive dans des requêtes simples peut entraîner des retards inutiles et une dégradation de la précision, et notre routage adaptatif évite ces problèmes. Enfin, nous présentons l'indice Précision-Inférence-Jeton (AIT) afin d'évaluer de manière exhaustive le compromis entre précision, délai et coût des jetons.