Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

SuperARC: A Test for General and Super Intelligence Based on First Principles of Recursion Theory and Algorithmic Probability

Created by
  • Haebom
Category
Empty

저자

Alberto Hernandez-Espinosa, Luan Ozelim, Felipe S. Abrahao, Hector Zenil

개요

본 논문은 알고리즘 확률에 기반한 새로운 오픈엔드 테스트를 제안하여, AGI 및 ASI를 주장하는 최첨단 모델의 정량적 평가에서 벤치마크 오염을 피하는 방법을 제시합니다. 기존의 압축 방법(GZIP 또는 LZW)에 의존하지 않고, 역문제 맥락에서 합성 및 모델 생성과 같은 지능의 기본적인 특징에 대한 평가를 수행합니다. 모델 추상화와 베이지안 추론에 기반한 지표를 사용하여 인간, 동물, 좁은 AI, AGI, ASI를 포함한 다양한 지능을 평가할 수 있는 견고한 프레임워크를 제시합니다. LLM이 특정 지능 수준(특히 AGI 또는 ASI)으로 수렴한다는 명확한 증거를 발견하지 못했으며, LLM 모델 버전이 취약하고 증분적이며, 새로운 버전이 이전 버전보다 성능이 저하될 수 있으며, 진보는 주로 훈련 데이터의 크기에 의해 좌우됨을 보였습니다. 알고리즘 확률과 콜모고로프 복잡도 원리에 기반한 최적 추론을 이론적으로 보장하는 하이브리드 신경 기호 접근 방식과 비교하여, 짧은 이진 시퀀스에 대한 개념 증명에서 해당 방법이 LLM보다 우수함을 보였습니다. 본 연구 결과는 LLM의 근본적인 한계를 확인하며, 인간 언어에 대한 숙달 인식에 최적화된 시스템임을 드러냅니다. 같은 개발자의 LLM 버전 간의 진전은 일관성이 없고 제한적이며, 특히 견고한 기호적 대응물이 없는 경우 더욱 그러했습니다.

시사점, 한계점

시사점: 알고리즘 확률에 기반한 새로운 평가 방법을 제시하여 AGI/ASI 연구에 새로운 관점을 제공합니다. LLM의 한계를 명확히 보여주고, 향후 연구 방향을 제시합니다. 하이브리드 신경 기호 접근 방식의 우수성을 보여줍니다.
한계점: 제안된 테스트의 일반화 가능성에 대한 추가 연구가 필요합니다. 짧은 이진 시퀀스에 대한 개념 증명만 제시되었으므로, 더욱 복잡한 작업에 대한 평가가 필요합니다. 하이브리드 신경 기호 접근 방식의 구체적인 구현 및 확장성에 대한 추가적인 설명이 필요합니다. 현재 LLM의 성능 평가에 사용되는 다른 벤치마크와의 비교 분석이 부족합니다.
👍