Vision Transformer(ViT)의 깊이가 깊어질수록 성능이 저하되는 현상에 대한 연구. ImageNet에서 ViT-S, ViT-B, ViT-L을 분석하여 깊이에 따른 표현 변화의 세 단계(Cliff-Plateau-Climb) 패턴을 발견. 성능 향상은 [CLS] 토큰의 역할 감소와 패치 토큰 간 분산된 합의에 기인함을 확인. 정보 혼합 패턴을 정량화하는 정보 스크램블링 지수를 개발하여, ViT-L에서 정보-태스크 간 트레이드오프가 ViT-B보다 10 레이어 늦게 발생하며, 추가 레이어는 성능 향상보다 정보 확산과 관련 있음을 밝힘. 제안된 정보 스크램블링 지수는 기존 모델 진단에 유용하며, 향후 아키텍처 설계를 위한 잠재적 목표를 제시.