Este artículo evalúa sistemáticamente nueve modelos lingüísticos a gran escala (LLM) existentes utilizando 5000 afirmaciones evaluadas por 174 organizaciones expertas en verificación de datos en 47 idiomas. Los LLM se evalúan en diversas categorías (código abierto/cerrado, diversos tamaños, diversas arquitecturas y basados en inferencias). Para comprobar la capacidad de generalización de los modelos, utilizamos cuatro estrategias de estímulo que reflejan las interacciones entre verificadores ciudadanos y expertos, y las afirmaciones generadas con posterioridad a los datos de entrenamiento. Con base en más de 240 000 anotaciones humanas, observamos un fenómeno similar al «efecto Danning-Kruger», donde los modelos a pequeña escala presentan una alta confianza a pesar de una menor precisión, mientras que los modelos a gran escala presentan una alta precisión pero una menor confianza. Esto supone un riesgo de sesgo sistemático en la verificación de la información, especialmente cuando los modelos a pequeña escala son utilizados por organizaciones con recursos limitados. La brecha de rendimiento es más pronunciada para las afirmaciones en idiomas distintos del inglés y provenientes del Sur Global, lo que podría agravar las desigualdades de información existentes. Estos hallazgos establecen un punto de referencia multilingüe para futuras investigaciones y brindan fundamento político para garantizar un acceso equitativo a una verificación de datos confiable asistida por inteligencia artificial.