Este artículo evalúa la capacidad predictiva de los modelos lingüísticos a gran escala (LLM) de vanguardia. Utilizando 464 preguntas de predicción de Metaculus, comparamos el rendimiento de los LLM con el de predictores líderes y grupos de expertos. Los resultados muestran que, si bien los modelos de vanguardia obtienen mejores puntuaciones en Brier que los grupos humanos, aún se encuentran significativamente por detrás de estos últimos. Si bien los LLM no lograron alcanzar la precisión humana hasta el año pasado, los modelos recientes demuestran un progreso significativo.