この研究は、イベントベースのカメラのための2つの主要なコンピュータビジョン深層学習アーキテクチャである合成積ニューラルネットワーク(CNN)とビジョントランス(ViT)の性能を調査します。イベントベースのカメラは、静的画像をキャプチャする従来のフレームベースのカメラとは異なり、シーンの変化をキャプチャし、無人航空機(UAV)や自律走行車などのダイナミックな環境に特に適しています。 ResNet34とViT B16モデルをGEN1イベントベースのデータセットで微調整して研究し、標準条件とシミュレートされたノイズ環境でモデルを評価して比較しました。クリーンなGEN1データセットの初期評価の結果、ResNet34とViT B16はそれぞれ88%と86%の精度を達成し、ResNet34は分類精度でわずかな優位性を示しました。しかし、ViT B16モデルはより小さなデータセットで事前トレーニングされているにもかかわらず、特に堅牢性に優れていました。この研究は地上ベースの車両分類に焦点を当てていますが、その方法論と結果は、航空物体分類および航空関連作業のためのイベントベースのビジョンシステムを含むUAV環境に適用可能です。