본 논문은 Vision Transformer (ViT)를 이용한 귀 인식의 효율성을 높이기 위해 중첩 패치 선택 전략을 평가한 연구이다. ViT-Tiny, ViT-Small, ViT-Base, ViT-Large 네 가지 ViT 모델을 OPIB, AWE, WPUT, EarVN1.0 데이터셋에 적용하여 실험을 진행하였으며, 중첩 패치 전략의 중요성을 확인하였다. 실험 결과, 중첩 패치를 사용한 경우 48개 실험 중 44개에서 성능이 향상되었으며, 특히 EarVN1.0 데이터셋에서는 최대 10%의 성능 향상을 보였다. 모델 성능 측면에서는 ViT-Tiny 모델이 다른 모델들보다 AWE, WPUT, EarVN1.0 데이터셋에서 우수한 성능을 보였고, 28x28 패치 크기와 14픽셀 스트라이드 설정에서 최고 성능을 달성하였다. 결론적으로, 중첩 패치 선택 전략을 사용한 Transformer 구조는 귀 기반 생체 인식 검증 시나리오에서 효율적이고 고성능의 옵션임을 확인하였다.