본 연구는 이벤트 기반 카메라를 위한 두 가지 주요 컴퓨터 비전 심층 학습 아키텍처인 합성곱 신경망(CNN)과 비전 트랜스포머(ViT)의 성능을 조사합니다. 이벤트 기반 카메라는 정적 이미지를 캡처하는 기존의 프레임 기반 카메라와 달리 장면 변화를 캡처하며, 무인 항공기(UAV) 및 자율 주행 차량과 같은 역동적인 환경에 특히 적합합니다. ResNet34와 ViT B16 모델을 GEN1 이벤트 기반 데이터셋으로 미세 조정하여 연구하였으며, 표준 조건과 시뮬레이션된 노이즈 환경에서 모델을 평가하고 비교했습니다. 깨끗한 GEN1 데이터셋에 대한 초기 평가 결과, ResNet34와 ViT B16은 각각 88%와 86%의 정확도를 달성했으며, ResNet34가 분류 정확도에서 약간의 우위를 보였습니다. 그러나 ViT B16 모델은 더 작은 데이터셋으로 사전 훈련되었음에도 불구하고, 특히 견고성이 뛰어났습니다. 본 연구는 지상 기반 차량 분류에 초점을 맞추고 있지만, 그 방법론과 결과는 항공 물체 분류 및 항공 관련 작업을 위한 이벤트 기반 비전 시스템을 포함한 UAV 환경에 대한 적용 가능성이 높습니다.