本論文は、Transformerベースのモデルがシステム2推論では依然として不足しており、ヒト-AI調整に必要な一般性と適応性が不足していることを指摘しています。 ARC-AGI課題の弱点を調べて、構成的一般化と新しい規則適応の違いを明らかにし、この違いを解消するためには推論パイプラインとその評価を再編成する必要があると主張する。構成的一般性のためのシンボリック表現パイプライン、適応性のための相互作用フィードバックベースの推論ループ、および両方の特性をバランスよく考慮するテスト時間課題の増強という3つの研究方向を提示する。最後に、ARC-AGIの評価ツールを使用して、嗜好的一般性、フィードバックベースの適応性、および課題レベルの堅牢性での進展を追跡して、強力なヒト-AI調整の将来の研究を導く方法を示します。