Cet article évalue la puissance prédictive des modèles linguistiques à grande échelle (MLH) les plus récents. À l'aide de 464 questions de prédiction de Metaculus, nous avons comparé les performances des LHH à celles des principaux prédicteurs et des groupes d'experts. Les résultats montrent que, si les modèles les plus récents obtiennent de meilleurs scores Brier que les groupes humains, ils restent significativement en retrait par rapport aux groupes d'experts. Si les LHH n'étaient pas en mesure d'approcher la précision humaine jusqu'à l'année dernière, les modèles récents démontrent des progrès significatifs.