Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Vision Transformer attention alignment with human visual perception in aesthetic object evaluation

Created by
  • Haebom

作者

Miguel Carrasco, C esar Gonz alez-Mart in, Jos e Aranda, Luis Oliveros

概要

この研究では、手工芸品(バスケット、ジンジャージャー)の審美的評価における人間の視覚的注意とビジョントランス(ViT)の注意メカニズムとの間の相関関係を調べました。 30人の参加者を対象としたアイトラッキング実験で人間の視線パターンを記録し、事前訓練されたDINOベースのViTモデルを使用してオブジェクトの注意マップを抽出しました。ガウスパラメータ(シグマ)を変化させながら、Kullback-Leibler divergenceを用いてヒトとViTの注意分布を比較分析した。その結果、sigma = 2.4で最も高い相関関係があり、特にViTの12番目のアテンションヘッドが人間の視覚パターンと最もよく一致することがわかりました。一方、7番と9番のアテンションヘッドは人間の注意と最大の違いを示しました。その結果、ViTは人間よりも全体的な注意パターンを示していますが、特定のアテンションヘッドは(バスケットのバックルなどの特徴)人間の視覚的行動を近似できることを示唆しています。

Takeaways、Limitations

Takeaways:
ViTの特定のアテンションヘッドが人間の視覚的注意パターンをある程度反映できることを示すことで、製品デザインや審美的評価分野にViTを活用する可能性を示しています。
人間の視覚的注意とAIモデルの注意メカニズムの違いを解明し、今後のAIモデル開発の方向性を提示します。
Limitations:
研究対象はバスケットとショウガの瓶に限定され、一般化の可能性に制限があります。
参加者数が30人と比較的少なく、統計的有意性の追加レビューが必要になる場合があります。
ViTモデルの特定のアーキテクチャと事前トレーニング方法に依存する結果である可能性があります。
人間の注意とViTの注意との定量的比較に使用されるKullback-Leibler divergenceとGaussianパラメータの適切性についてのさらなる議論が必要です。
👍