Bài báo này trình bày một bài kiểm tra mở dựa trên xác suất thuật toán, tránh được sự pha trộn chuẩn mực trong đánh giá định lượng các mô hình tiên tiến liên quan đến các tuyên bố về trí tuệ nhân tạo tổng quát (AGI) và siêu trí tuệ (ASI). Không giống như các bài kiểm tra hiện có, bài kiểm tra này không dựa trên các phương pháp nén thống kê như GZIP hoặc LZW, vốn có liên quan chặt chẽ với entropy Shannon và không thể kiểm tra nhiều hơn so với việc khớp mẫu đơn giản. Bài kiểm tra này thách thức AI, và đặc biệt là LLM, liên quan đến các tính năng trí tuệ cơ bản như tổng hợp và tạo mô hình trong bối cảnh các bài toán nghịch đảo. Chúng tôi lập luận rằng các số liệu cho việc lập kế hoạch dự đoán dựa trên trừu tượng hóa và quy nạp mô hình (suy luận Bayes tối ưu) có thể cung cấp một khuôn khổ vững chắc để kiểm tra trí thông minh, bao gồm trí thông minh tự nhiên (con người và động vật), AI hẹp, AGI và ASI. Chúng tôi nhận thấy rằng các phiên bản mô hình LLM rất mong manh và gia tăng, chủ yếu là do ghi nhớ, và tiến trình có xu hướng chủ yếu được thúc đẩy bởi kích thước của dữ liệu huấn luyện. Chúng tôi so sánh kết quả của mình với một phương pháp tiếp cận thần kinh tượng trưng lai, về mặt lý thuyết đảm bảo trí thông minh phổ quát dựa trên các nguyên tắc của xác suất thuật toán và độ phức tạp Kolmogorov. Trong một bằng chứng khái niệm cho các chuỗi nhị phân ngắn, chúng tôi chứng minh rằng phương pháp này vượt trội hơn LLM. Chúng tôi chứng minh rằng độ nén tỷ lệ thuận với khả năng dự đoán của hệ thống, tức là hệ thống có thể dự đoán càng tốt thì khả năng nén càng tốt, và khả năng nén càng tốt thì khả năng dự đoán càng tốt. Những kết quả này củng cố những nghi ngờ về những hạn chế cơ bản của LLM, phơi bày nó như một hệ thống được tối ưu hóa cho việc nhận dạng thành thạo ngôn ngữ con người.