Cet article souligne les limites des études antérieures évaluant la précision des réponses à l'aide de vecteurs d'activation pour résoudre le problème de fiabilité des modèles linguistiques à grande échelle (MLH). Ces études affirment que la « géométrie de vérité » peut être apprise en utilisant des classificateurs linéaires pour distinguer les vecteurs d'activation corrects des vecteurs d'activation incorrects générés lors d'une tâche spécifique. Cependant, cet article montre que cette « géométrie de vérité » varie considérablement d'une tâche à l'autre et ne se transfère pas d'une tâche à l'autre. Plus précisément, nous prouvons expérimentalement que les classificateurs linéaires entraînés sur différentes tâches présentent peu de similarités et, en particulier lorsque des régularisateurs appliquant la parcimonie sont utilisés, qu'ils se chevauchent peu. Nous montrons également que les approches à sondes mixtes ou multitâches ne parviennent pas à surmonter ces limites, et nous affirmons que cela est probablement dû au fait que les vecteurs d'activation entre les tâches forment des clusters clairement séparés.