Cet article évalue systématiquement neuf modèles linguistiques à grande échelle (MLH) existants à partir de 5 000 affirmations évaluées par 174 organisations expertes en vérification des faits dans 47 langues. Les LHH sont évalués selon diverses catégories (sources ouvertes/fermées, tailles variées, architectures variées et inférences). Pour tester la capacité de généralisation des modèles, nous utilisons quatre stratégies d'incitation qui reflètent les interactions entre les vérificateurs de faits citoyens et experts, ainsi que les affirmations générées ultérieurement aux données d'entraînement. Sur la base de plus de 240 000 annotations humaines, nous observons un phénomène similaire à l'« effet Danning-Kruger », où les modèles à petite échelle affichent une confiance élevée malgré une précision moindre, tandis que les modèles à grande échelle affichent une précision élevée mais une confiance moindre. Cela présente un risque de biais systématique dans la vérification de l'information, en particulier lorsque les modèles à petite échelle sont utilisés par des organisations aux ressources limitées. L'écart de performance est plus prononcé pour les affirmations rédigées dans des langues autres que l'anglais et provenant des pays du Sud, ce qui pourrait exacerber les inégalités d'information existantes. Ces résultats établissent une référence multilingue pour les recherches futures et fournissent une justification politique pour garantir un accès équitable à une vérification des faits fiable assistée par l’IA.