Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

COGITAO: A Visual Reasoning Framework To Study Compositionality & Generalization

Created by
  • Haebom

作者

Yassine Taoudi-Benchekroun, Klim Troyan, Pascal Sager, Stefan Gerber, Lukas Tuggener, Benjamin Grewe

概要

COGITAOは、視覚領域で構成性と一般化を体系的に研究するために設計されたモジュール式で拡張可能なデータ生成フレームワークであり、ベンチマークです。 ARC-AGIの問題設定からインスピレーションを得て、グリッド環境でオブジェクトに変換セットを適用するルールベースの操作を構成します。 28の相互運用可能な変換のための調整可能な深さで構成をサポートし、グリッドパラメータとオブジェクトプロパティの幅広い制御を提供します。この柔軟性により、さまざまな難易度で数百万の固有の作業ルール(従来のデータセットより数倍多い)を作成し、ルールごとに事実上無制限のサンプル生成を可能にします。最先端のビジョンモデルを用いた基準実験は、優れたドメイン内性能にもかかわらず、慣れ親しんだ要素の新しい組み合わせへの一般化に絶えず失敗することを示しています。 COGITAOは、すべてのコードとデータセットを含む完全にオープンソースで提供され、この分野の継続的な研究を支援します。

Takeaways、Limitations

Takeaways:
構成性と一般化能力を研究するための新しいベンチマークとデータ生成フレームワークを提供します。
既存のデータセットよりはるかに大きく、さまざまなルールベースのタスクを作成できます。
最先端のビジョンモデルの構成性と一般化能力の限界を明確に提示
オープンソースとして提供され、関連研究の活性化に貢献。
Limitations:
現在は視覚領域に限られた研究。
ルールベースの作業への依存度が高く、現実世界の複雑な問題解決には限界存在可能性。
提示された基準実験結果だけでは、COGITAOのすべての可能性を完全に評価することが難しい。
👍