본 논문은 고해상도 전자광학 위성 영상에서의 객체 탐지에 트랜스포머 기반 신경망의 활용을 탐구한다. 2015년 이후 발표된 11가지(그 중 7가지는 2020년 이후 발표)의 바운딩 박스 탐지 및 위치 확인 알고리즘을 비교 분석하며, 5가지 트랜스포머 기반 아키텍처와 6가지 합성곱 신경망을 세 가지 공개된 고해상도 원격 감지 영상 데이터셋에 적용하여 성능을 비교 평가한다. 총 33개의 심층 신경망 모델을 학습 및 평가한 후, 다양한 특징 추출 방법론과 탐지 알고리즘에 따른 모델 성능을 분석한다. AlexNet 이후 컴퓨터 비전 분야의 두 번째 혁신으로 여겨지는 비전 트랜스포머의 원격 감지 분야 적용 가능성을 대규모 실험을 통해 검증한다.