Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Do AI Models Perform Human-like Abstract Reasoning Across Modalities?

Created by
  • Haebom

作者

Claas Beger, Ryan Yi, Shuhao Fu, Arseny Moskvichev, Sarah W. Tsai, Sivasankaran Rajamanickam, Melanie Mitchell

概要

OpenAIのo3-preview推論モデルがARC-AGIベンチマークで人間の精度を超えていますが、最先端のモデルが課題作成者が意図した抽象化を認識して推論しているかどうかを調べます。 ConceptARC でモデルの抽象化能力を調べます。入力方式(テキスト対視覚)、モデルが外部Pythonツールを使用できるかどうか、推論モデルの推論努力の量を変更する設定を使用してモデルを評価します。出力精度を測定することに加えて、モデルがソリューションを説明するために生成する自然言語規則を細かく評価します。二重評価は、モデルがサーフェスレベルパターンに依存するのではなく、ConceptARCが導くように設計された抽象化を使用して課題を解決するかどうかを評価するのに役立ちます。結果によれば、テキストベースの表現を使用するいくつかのモデルは人間の出力精度に一致しますが、最高のモデルルールはしばしば表面レベルの「近道」に基づいており、意図された抽象化を人間よりはるかに少なく捉えます。したがって、精度だけで評価する場合、一般的な抽象推論能力が過大評価される可能性があります。視覚的なアプローチでは、AIモデルの出力精度は急激に低下しますが、ルールレベルの分析によってモデルが過小評価される可能性があることがわかります。それでも、かなりの割合のルールが意図した抽象化を捉えますが、しばしばこれらのルールを正しく適用できないためです。要するに、結果は、モデルが依然として人間よりも抽象的推論で遅れており、ARCなどの課題で抽象推論を評価するために精度のみを使用することは、テキスト方式での抽象推論能力を過大評価し、視覚的方法で過小評価できることを示しています。

Takeaways、Limitations

テキストベースのモデルは人間と同様の精度を示しますが、表面積パターンに依存することが多く、抽象的な推論能力が過大評価される可能性があります。
視覚的方法のモデルは精度が低いが、意図された抽象化を捕捉する規則を生成することがあり、推論能力が過小評価される可能性がある。
精度だけでは抽象的推論能力を正確に評価することは難しい。
この研究は、マルチモーダルモデルの抽象的な推論能力をより正確に評価するためのフレームワークを提示します。
ARC-like課題における抽象的推論能力の評価において、精度だけでなくルール分析も併せて実施しなければならない。
👍