Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Leveraging Geometric Visual Illusions as Perceptual Inductive Biases for Vision Models

Created by
  • Haebom

作者

Haobo Yang, Minghao Guo, Dequan Yang, Wenyu Wang

概要

この論文は、深層学習モデルの画像分類性能を向上させるために、認知心理学で研究された幾何学的錯視を利用する新しい方法を提示します。幾何学的錯視を含む合成データセットを作成し、それをImageNet分類タスクと組み合わせる3つのマルチソース学習戦略を評価しました。実験の結果、錯視認識タスクを追加の地図学習として活用すると、特に複雑な輪郭と細かい質感を含む困難な視覚的ケースで一般化性能が向上することがわかりました。さらに、合成刺激に由来する認知的に誘導された帰納的偏向は、CNNとトランスフォーマーベースのアーキテクチャの両方の構造的感度を向上させることができることを確認しました。これは、認知科学と機械学習の新しい統合を示す結果であり、視覚モデル設計に認知的事前知識を統合する新しい方向性を提示します。

Takeaways、Limitations

Takeaways:
幾何学的錯視を利用したマルチソース学習が画像分類モデルの一般化性能を改善できることを示した。
認知的に誘導された帰納的偏向がCNNおよびTransformerアーキテクチャの構造的感度を向上させることができることを示唆しています。
認知科学と機械学習の融合を通して新しい視覚モデルの設計方向を提示する。
Limitations:
提示された合成データセットの一般化の可能性に関するさらなる研究が必要です。
様々なタイプの錯覚およびより複雑な視覚刺激に対するさらなる実験が必要である。
実際の世界イメージの一般化性能評価が必要です。
👍