본 논문은 알고리즘 확률에 기반한 새로운 오픈엔드 테스트를 제안하여, AGI 및 ASI를 주장하는 최첨단 모델의 정량적 평가에서 벤치마크 오염을 피하는 방법을 제시합니다. 기존의 압축 방법(GZIP 또는 LZW)에 의존하지 않고, 역문제 맥락에서 합성 및 모델 생성과 같은 지능의 기본적인 특징에 대한 평가를 수행합니다. 모델 추상화와 베이지안 추론에 기반한 지표를 사용하여 인간, 동물, 좁은 AI, AGI, ASI를 포함한 다양한 지능을 평가할 수 있는 견고한 프레임워크를 제시합니다. LLM이 특정 지능 수준(특히 AGI 또는 ASI)으로 수렴한다는 명확한 증거를 발견하지 못했으며, LLM 모델 버전이 취약하고 증분적이며, 새로운 버전이 이전 버전보다 성능이 저하될 수 있으며, 진보는 주로 훈련 데이터의 크기에 의해 좌우됨을 보였습니다. 알고리즘 확률과 콜모고로프 복잡도 원리에 기반한 최적 추론을 이론적으로 보장하는 하이브리드 신경 기호 접근 방식과 비교하여, 짧은 이진 시퀀스에 대한 개념 증명에서 해당 방법이 LLM보다 우수함을 보였습니다. 본 연구 결과는 LLM의 근본적인 한계를 확인하며, 인간 언어에 대한 숙달 인식에 최적화된 시스템임을 드러냅니다. 같은 개발자의 LLM 버전 간의 진전은 일관성이 없고 제한적이며, 특히 견고한 기호적 대응물이 없는 경우 더욱 그러했습니다.