Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

SuperARC: An Agnostic Test for Narrow, General, and Super Intelligence Based On the Principles of Recursive Compression and Algorithmic Probability

Created by
  • Haebom

作者

Alberto Hern andez-Espinosa, Luan Ozelim, Felipe S. Abrah ao, Hector Zenil

概要

本論文は、人工一般知能(AGI)と超知能(ASI)の主張に関連する最先端モデルの定量的評価でベンチマーク汚染を回避するアルゴリズムの確率に基づくオープンテストを提示します。従来のテストとは異なり、シャノンエントロピーと密接に関連しているため、単純なパターンマッチング異常をテストできないGZIPやLZWなどの統計的圧縮方法には依存しません。このテストは、逆問題の文脈における合成やモデル生成などの基本的なインテリジェンス特性に関してAI、特にLLMの課題を提示します。モデルの抽象化と帰納(最適ベイズ推論)に基づく予測計画の指標は、自然知能(人間と動物)、狭いAI、AGI、ASIなどの知能テストのための堅牢なフレームワークを提供できると主張しています。 LLMモデルのバージョンは、主に暗記の結果として脆弱で増分的であり、進展は主に訓練データのサイズによって行われる傾向があることを発見した。アルゴリズムの確率とコルモゴロフの複雑さの原理に基づいて、理論的に普遍的な知能を保証するハイブリッド神経記号アプローチと結果を比較しました。短いバイナリシーケンスの概念証明では、この方法はLLMよりもパフォーマンスが優れていることを証明しました。圧縮はシステムの予測力に等しく直接的に比例することを証明した。つまり、システムがよりよく予測できる場合はよりよく圧縮でき、よりよく圧縮できる場合はよりよく予測できます。これらの結果は、LLMの根本的な限界に対する疑いを高め、人間の言語に対する熟達認識のために最適化されたシステムにさらされます。

Takeaways、Limitations

Takeaways:
AGI/ASI評価のための新しいベンチマークテストの提示
LLMの限界(暗記中心、人間言語熟達認識の最適化)を明らかにする
圧縮と予測能力との相関証明
ハイブリッド神経記号アプローチの優れた提示
Limitations:
概念証明は短いバイナリシーケンスに限定されています。より複雑なデータセットへのスケーラビリティ検証が必要です。
提案されたテストの汎用性と一般化の可能性に関するさらなる研究が必要です。
ハイブリッド神経記号アプローチの実際の実施と拡張性に関するさらなる研究が必要
👍