본 논문은 Transformer 기반 아키텍처에 대한 엄격한 Lipschitz 경계를 도출하는 어려움을 다룹니다. 큰 입력 크기와 고차원 어텐션 모듈은 훈련 과정에서 주요 병목 현상을 일으켜 최적이 아닌 결과를 초래합니다. 본 연구는 비전 작업에서 이러한 방법의 실질적인 제약을 강조합니다. Lipschitz 기반 마진 훈련이 강력한 정규화 역할을 하면서 모델의 연속적인 레이어의 가중치를 제한함을 발견했습니다. ShiftViT 모델의 Lipschitz 연속 변형에 초점을 맞춰 규범 제약 입력 설정 하에서 Transformer 기반 아키텍처의 중요한 훈련 과제를 해결합니다. 일반적인 이미지 분류 데이터 세트에서 $l_2$ 규범을 사용하여 이 모델의 Lipschitz 상수에 대한 상한 추정치를 제공합니다. 궁극적으로 본 방법이 더 큰 모델로 확장되고 Transformer 기반 아키텍처의 인증된 강건성에서 최첨단 기술을 발전시킨다는 것을 보여줍니다.