Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Octic Vision Transformers: Quicker ViTs Through Equivariance

Created by
  • Haebom

作者

David Nordstr om, Johan Edstedt, Fredrik Kahl, Georg B okman

概要

本論文は、最先端のVision Transformer(ViT)が90度の回転や反射などの自然な幾何学的対称性を利用するように設計されていない理由について疑問を提示し、その原因が効率的な実装の欠如にあると主張しています。これに対処するために、オクティックグループの等変性を活用するOctic Vision Transformers(octic ViTs)を提案します。オクティックリニアレイヤーは、従来のリニアレイヤーに比べてFLOPsを5.33倍、メモリを最大8倍まで削減します。オクチックブロックで構成された2つのViTファミリーを研究し、ImageNet-1Kで地図学習(DeiT-III)と非地図学習(DINOv2)の方法で訓練した結果、基準精度を維持しながら大幅な効率向上を達成しました。

Takeaways、Limitations

Takeaways:
既存のViTの効率を改善する新しいアーキテクチャ提案(octic ViT)
計算コストを増加させることなく幾何学的対称性を利用する効率的な実装方法を提示します。
ImageNet-1Kで基準精度と効率の両方を達成
Limitations:
アーキテクチャの一般化の可能性と他のデータセットでのパフォーマンス検証が必要です。
具体的な実施と訓練の詳細に関する追加情報の欠如。
幅広い用途の可能性を探る必要性
👍