본 논문은 사전 훈련된 거대 언어 모델의 공개된 특성으로 인해 발생하는 적대적 공격 취약성 문제를 해결하기 위해, Transformer 아키텍처에 특화된 새로운 접근 방식인 Robustness Tokens를 제안합니다. 기존의 적대적 훈련 방식처럼 모델 파라미터를 조정하는 대신, 소량의 추가적인 개인 토큰을 미세 조정하여 계산 비용을 낮추면서 Vision Transformer 모델의 강건성을 향상시키는 방법입니다. 실험 결과, Robustness Tokens는 화이트 박스 적대적 공격에 대한 Vision Transformer 모델의 강건성을 크게 향상시키는 동시에 기존의 성능도 유지함을 보여줍니다.