Este artículo presenta una prueba abierta basada en probabilidad algorítmica que evita la contaminación de los parámetros de referencia en la evaluación cuantitativa de modelos de vanguardia en relación con las afirmaciones de inteligencia artificial general (IAG) y superinteligencia (IAE). A diferencia de las pruebas existentes, no se basa en métodos de compresión estadística como GZIP o LZW, que están estrechamente relacionados con la entropía de Shannon y no pueden evaluar más que la simple coincidencia de patrones. La prueba desafía a la IA, y en particular a la LLM, en relación con características fundamentales de la inteligencia, como la síntesis y la generación de modelos en el contexto de problemas inversos. Argumentamos que las métricas para la planificación predictiva basadas en la abstracción e inducción de modelos (inferencia bayesiana óptima) pueden proporcionar un marco robusto para evaluar la inteligencia, incluyendo la inteligencia natural (humana y animal), la IA estrecha, la IAG y la IAE. Observamos que las versiones del modelo LLM son frágiles e incrementales, principalmente como resultado de la memorización, y que el progreso tiende a estar impulsado principalmente por el tamaño de los datos de entrenamiento. Comparamos nuestros resultados con un enfoque neurosimbólico híbrido que, en teoría, garantiza inteligencia universal basada en los principios de probabilidad algorítmica y complejidad de Kolmogorov. En una prueba de concepto para secuencias binarias cortas, demostramos que este método supera a LLM. Demostramos que la compresión es directamente proporcional a la capacidad predictiva del sistema; es decir, cuanto mejor prediga el sistema, mejor comprimirá, y cuanto mejor comprima, mejor predecirá. Estos resultados refuerzan las sospechas sobre las limitaciones fundamentales de LLM, demostrándolo como un sistema optimizado para el reconocimiento competente del lenguaje humano.