본 논문은 IoT 봇넷 공격 탐지를 위해 비전 트랜스포머(ViT)를 적용하는 새로운 전처리 방법을 제시합니다. 기존의 IoT 네트워크 플로우 패킷에서 특징을 추출하는 도구들이 시퀀셜 패턴과 공간 패턴을 모두 포착하지 못하는 한계를 극복하고자, .pcap 파일에서 특징을 추출하여 1채널 2D 이미지 형태로 변환함으로써 ViT 기반 분류를 가능하게 합니다. 또한, 원래 ViT 논문에서 사용된 다층 퍼셉트론(MLP) 이외에도 DNN, LSTM, BLSTM과 같은 다양한 분류기를 사용할 수 있도록 ViT 모델을 개선하였으며, 두 개의 IoT 공격 데이터셋을 사용하여 다중 클래스 기반 공격 탐지 성능을 평가한 결과, 높은 정밀도, 재현율, F1-점수를 달성했습니다.