VORTEX: Challenging CNNs at Texture Recognition by using Vision Transformers with Orderless and Randomized Token Encodings
Created by
Haebom
Category
Empty
저자
Leonardo Scabini, Kallil M. Zielinski, Emir Konuk, Ricardo T. Fares, Lucas C. Ribas, Kevin Smith, Odemir M. Bruno
개요
본 논문에서는 텍스처 인식에 효과적으로 Vision Transformer (ViT)를 활용하는 새로운 방법인 VORTEX (ViTs with Orderless and Randomized Token Encodings for Texture Recognition)를 제시합니다. VORTEX는 사전 훈련된 ViT 백본에서 다중 깊이 토큰 임베딩을 추출하고, 경량 모듈을 사용하여 계층적 특징을 집계하고 순서 없는 인코딩을 수행하여 텍스처 인식 작업에 더 나은 이미지 표현을 얻습니다. 기존의 Transformer 아키텍처를 가진 모든 ViT와 원활하게 통합될 수 있으며, 백본의 미세 조정 없이도 우수한 성능을 보입니다. 9개의 다양한 텍스처 데이터셋에서 평가하여 여러 텍스처 분석 시나리오에서 최첨단 성능을 달성하거나 능가함을 보였습니다. CNN과 비교하여 계산 효율성이 뛰어나며, 구현 및 실험 스크립트는 공개적으로 제공됩니다.