본 논문은 안전에 중요한 분야에 딥러닝 비전 시스템을 적용하는 과정에서 발생하는 작은 적대적 패치에 대한 취약성을 해결하기 위해 Filtered-ViT라는 새로운 비전 변환기 아키텍처를 제안한다. 이 아키텍처는 SMART Vector Median Filtering (SMART-VMF)을 통합하여, 손상된 영역을 선택적으로 억제하면서 의미적 세부 정보를 보존한다. ImageNet에서 LaVAN 다중 패치 공격을 사용하여 기존 방어 기법보다 우수한 성능을 보였으며, 의료 영상의 실제 사례 연구를 통해 자연적인 아티팩트를 완화하면서 진단 내용을 유지하는 능력을 입증했다.