Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

From Ground to Air: Noise Robustness in Vision Transformers and CNNs for Event-Based Vehicle Classification with Potential UAV Applications

Created by
  • Haebom

作者

Nouf Almesafri、Hector Figueiredo、Miguel Arana-Catania

概要

この研究は、イベントベースのカメラのための2つの主要なコンピュータビジョン深層学習アーキテクチャである合成積ニューラルネットワーク(CNN)とビジョントランス(ViT)の性能を調査します。イベントベースのカメラは、静的画像をキャプチャする従来のフレームベースのカメラとは異なり、シーンの変化をキャプチャし、無人航空機(UAV)や自律走行車などのダイナミックな環境に特に適しています。 ResNet34とViT B16モデルをGEN1イベントベースのデータセットで微調整して研究し、標準条件とシミュレートされたノイズ環境でモデルを評価して比較しました。クリーンなGEN1データセットの初期評価の結果、ResNet34とViT B16はそれぞれ88%と86%の精度を達成し、ResNet34は分類精度でわずかな優位性を示しました。しかし、ViT B16モデルはより小さなデータセットで事前トレーニングされているにもかかわらず、特に堅牢性に優れていました。この研究は地上ベースの車両分類に焦点を当てていますが、その方法論と結果は、航空物体分類および航空関連作業のためのイベントベースのビジョンシステムを含むUAV環境に適用可能です。

Takeaways、Limitations

Takeaways:
イベントベースカメラ用のCNN(ResNet34)とViT(ViT B16)の性能比較分析により、各アーキテクチャの強みと弱点を提示。
ResNet34は高精度を、ViT B16は優れた堅牢性を示すことを確認。
地上ベースの車両分類を超えたUAVを含む様々な用途に適用可能性を提示
Limitations:
研究は地上ベースの車両分類にのみ焦点を当てており、UAV環境への実際の適用結果は示されていません。
使用されるデータセットのサイズと多様性がモデルのパフォーマンスに与える影響の詳細な分析が不足する可能性があります。
他のイベントベースのカメラデータセットやより多様なノイズ条件の実験が必要です。
👍